solr系列3——solr數據同步(全量、增量)

solr 數據同步,全量、增量方式

DIH全量同步(全表數據)(一般做第一次數據同步)

  • 首先創建對應的數據庫表
  • solr配置
    • 將solr現有數據清空

      cd /usr/local/solr/example/solr/collection1/data && rm -rf * && mkdir index && mkdir tlog

    • 添加數據源配置(@)

      vim /usr/local/solr/example/solr/collection1/conf/solrconfig.xml

      添加配置信息:

      <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
      <lst name="defaults">
      <str name="config">data-config.xml</str>
      </lst>
      </requestHandler>
    • 在同目錄下創建data-config.xml文件,并添加源信息(@)

      vim /usr/local/solr/example/solr/collection1/conf/data-config.xml

      添加配置如下:

       <dataConfig>
          <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://127.0.0.1:3306/mysolr" user="root" password="123456"/>
          <document>
             <entity name="user" transformer="DateFormatTransformer" query="SELECT id,name,price,url,last_modified FROM user WHERE id >= ${dataimporter.request.id}">
                <field column="id" name="id"/>
                <field column="name" name="name"/>
                <field column="price" name="price"/>
                <field column="url" name="url"/>
                <filed column="last_modified" name="last_modified" dateTimeFormat="yyyy-MM-dd HH:mm:ss"/>
              </entity>
          </document>
      </dataConfig>
      
    • 添加數據同步所需依賴jar到tomcat中solr

      cd /usr/local/solr/dist && cp solr-dataimporthandler-4.10.3.jar solr-dataimporthandler-extras-4.10.3.jar /usr/local/tomcat/webapps/solr/WEB-INF/lib/

      同時把mysql驅動添加到/usr/local/tomcat/webapps/solr/WEB-INF/lib/

    • 將需要同步的數據庫表字段添加到schema.xml中,如果已存在,則無需
    • 進行數據庫訪問授權操作,如果已授權則略過

      GRANT ALL PRIVILEGES ON *.* TO root@"%" IDENTIFIED BY '123456' WITH GRANT OPTION; flush privileges;

    • 時間同步,mysql數據源服務器時間跟solr服務器時間一致

      date -s "2016-04-17 21:15:00" 設置時間 mysql數據源服務器時間一定大于等于solr服務器時間,否則solr檢測不到mysql時間變化了(認為是舊數據,增量同步來說

    • 啟動tomcat即可。
    • 瀏覽器訪問http://ip:port/solr,點擊Dataimport,Command選擇full-import,Entity選擇要同步的表,Custom Parameters輸入data-config.xml中需要的參數(${dataimport.request.id}),點擊Execute執行即可。
      solr-HID全量.png

DIH增量同步(新增數據)(常用模式)

  • 只需要對上面全量導入solr配置中帶有(@)標示的配置進行修改即可
  • 添加數據源配置(@)

    vim /usr/local/solr/example/solr/collection1/conf/solrconfig.xml

    添加配置信息:

     <requestHandler name="/deltaimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
      <lst name="defaults">
        <str name="config">delta-data-config.xml</str>
      </lst>
    

</requestHandler>
```

  • 在同目錄下創建delta-data-config.xml文件,并添加源信息(@)

    vim /usr/local/solr/example/solr/collection1/conf/delta-data-config.xml

    添加配置如下:

       <dataConfig>
          <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://127.0.0.1:3306/mysolr" user="root" password="123456"/>
          <document>
             <entity name="user" pk="id" transformer="DateFormatTransformer"
             query="SELECT id,name,price,url,last_modified FROM user WHERE id >= ${dataimporter.request.id}"
             deltaImportQuery="SELECT * FROM user WHERE id = ${dih.delta.id}" deltaQuery="SELECT id FROM user where last_modified > '${dataimporter.last_index_time}' ">
                <field column="id" name="id"/>
                <field column="name" name="name"/>
                <field column="price" name="price"/>
                <field column="url" name="url"/>
                <filed column="last_modified" name="last_modified" dateTimeFormat="yyyy-MM-dd HH:mm:ss"/>
              </entity>
          </document>
      </dataConfig>
    ```
    

    id一致

    solr_pk.png

    last_modified字段要在schema.xml文件中配置,<field name="last_modified" type="date" indexed=true" stored="true"/>

    query : 首先查詢出所有滿足id > ${dataimporter.request.id} 的數據

    deltaQuery : 從query的數據中查詢所有last_modified大于上一次同步${dataimporter.last_index_time}時間的id(即為需要增量同步的數據),該id = ${dih.delta.id}

    deltaImportQuery :根據 deltaQuery 返回的id查找所有信息,為增量同步提供數據源

    ${dih.delta.id} : 記錄本次要索引的id

    ${dataimporter.last_index_time} : 最后一次索引的時間,即上一次同步的時間

    注意:last_modified字段很重要,為增量同步提供數據變更依據,一定為時間類型,具體字段名可自定義,同時也要注意solr服務器與mysql服務器時間同步問題

  • 配置完畢,啟動tomcat即可。
  • 最后訪問,瀏覽器訪問http://ip:port/solr,點擊Dataimport,Command選擇full-import,Entity選擇要同步的表,Custom Parameters輸入data-config.xml中需要的參數(${dataimport.request.id}),點擊Execute執行即可。
    solr-HID增量.png

全量、增量也可以同時配置。

備注

  • 內存溢出
    在使用 DIH 時,容易報內存溢出錯誤??梢酝ㄟ^設置 jvm 大小來解決。設置方法如下:
    在tomcat\bin\catalina.sh 加入SET JAVA_OPTS=-Xms128m -Xmx1024m 配置 這里設置的是1024M,根據情況可以適量增大 
    ```
    
  • 手動全量、增量操作

    可以通過solr管控臺操作,也可以直接在瀏覽器輸入鏈接直接操作

    全導入:
    http://192.168.58.144:8080/solr/collection1/dataimport?command=full-import&commit=ture
    增量導入:
    http://192.168.58.144:8080/solr/collection1/deltaimport?command=delta-import&clean=false&commit=ture
    查看導入狀態
    http://192.168.58.144:8080/solr/collection1/dataimport?command=status
  • 定時增量同步(全量不支持定時同步--沒必要)
    • Solr官方提供了很強大的Data Import Request Handle
    • apache-solr-dataimportscheduler-1.0.jar 拷貝到/usr/local/tomcat/lib/目錄下
    • 修改solr.war中的web.xml文件

      cd /usr/local/tomcat/webapps/solr/WEB-INF/web.xml
      添加以下配置信息:

      <listener>
      <listener-class>
      org.apache.solr.handler.dataimport.scheduler.ApplicationListener
      </listener-class>
      </listener>
    • tomcatsolr.warweb.xml配置的solr.home下創建conf文件夾,并新建文件dataimport.properties,配置定時任務依賴信息
      solr-tomcat配置目錄.png

      cd /usr/local/solr/example/solr && mkdir conf && cd conf && vim dataimport.properties

      dataimport.properties文件信息如下:

      # dataimport.properties example
      #
      # From this example, copy everything bellow "dataimport scheduler properties" to your
      #   dataimport.properties file and then change params to fit your needs
      #
      # IMPORTANT:
      # Regardless of whether you have single or multiple-core Solr,
      #   use dataimport.properties located in your solr.home/conf (NOT solr.home/core/conf)
      # For more info and context see here:
      # http://wiki.apache.org/solr/DataImportHandler#dataimport.properties_example
      #Tue Jul 21 12:10:50 CEST 2010
      last_index_time=2016-04-19 15\:28\:37
      user.last_index_time=2016-04-19 15\:28\:37
      #################################################
      #                                               #
      #       dataimport scheduler properties         #
      #                                               #
      #################################################
      #
      # http://192.168.58.144:8080/solr/collection1/deltaimport?command=delta-import&clean=false&commit=ture   
      # 以下參數對應參數
      # http://server:port/webapp/syncCores/params
      #
      #  to sync or not to sync
      #  1 - active; anything else - inactive
      syncEnabled=1
      #
      #  which cores to schedule
      #  in a multi-core environment you can decide which cores you want syncronized
      #  leave empty or comment it out if using single-core deployment
      syncCores=collection1
      #
      #  solr server name or IP address
      #  [defaults to localhost if empty]
      server=localhost
      #
      #  solr server port
      #  [defaults to 80 if empty]
      port=8080
      #
      #  application name/context
      #  [defaults to current ServletContextListener's context (app) name]
      webapp=solr
      #
      #  URL params [mandatory]
      #  remainder of URL
      #增量url
      params=/deltaimport?command=delta-import&clean=false&commit=ture
      #
      #  schedule interval
      #  number of minutes between two runs
      #  [defaults to 30 if empty]
      #  定時更新間隔時間,單位分鐘
      interval=1
      
  • 配置完畢,啟動tomcat即可。

定時增量備注: 如果想支持定時重做索引,只需要將上面引入的jar更換為solr-dataimportscheduler-1.1.jar,在dataimport.properties中添加三行配置即可,實質就是全量同步。

#  重做索引的時間間隔,單位分鐘,默認7200,即5天; 
#  為空,為0,或者注釋掉:表示永不重做索引
reBuildIndexInterval=1
#
#  重做索引的參數
reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true
#
#  重做索引時間間隔的計時開始時間,第一次真正執行的時間=reBuildIndexBeginTime+reBuildIndexInterval*60*1000;
#  兩種格式:2016-04-19 05:00:00 或者  05:00:00,后一種會自動補全日期部分為服務啟動時的日期
reBuildIndexBeginTime=05:00:00
相關文件如下:
[solr-dataimportscheduler-1.1](C:\Users\ljdo\Desktop\筆記\file\solr\solr-dataimportscheduler-1.1.jar)
[solr-dataimportscheduler-1.1-source](C:\Users\ljdo\Desktop\筆記\file\solr\solr-dataimportscheduler-1.1-source.zip)
[dataimport.properties.zip](C:\Users\ljdo\Desktop\筆記\file\solr\dataimport.properties.zip)
[apache-solr-dataimportscheduler-1.0](http://solr-dataimport-scheduler.googlecode.com/files/apache-solr-dataimportscheduler-1.0.jar)
[apache-solr-dataimportscheduler-1.0-with-source](http://solr-dataimport-scheduler.googlecode.com/files/apache-solr-dataimportscheduler-1.0-with-source.jar)

作者:逐暗者 *(轉載請注明出處)*
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,835評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,676評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,730評論 0 380
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,118評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,873評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,266評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,330評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,482評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,036評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,846評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,025評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,575評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,279評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,684評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,953評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,751評論 3 394
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,016評論 2 375

推薦閱讀更多精彩內容