couchdb 同步数据到elasticsearch建索引

2016-11-21  本文已影响116人  朝圣的路上

应用场景:数据以文档的形式保存于couchdb,现在需要导入到elasticsearch建索引以支持全文检索。

不要去想着从couchdb读数据,然后调elasticsearch接口建索引了。logstash能很方便的完成你想要的工作,你所要做的工作就是装上logstash。 然后在conf里面写一个配置文件。比如db2es.conf .

 input {
  couchdb_changes {
      db => "media"
      host => "192.168.0.70"
      port => 5984
      codec => "json"
      username => "rdd"
      password => "rdd1qaz2wsx"
      initial_sequence => 0 #this is only required for the an initial indexing
      #keep_revision=>true
  }
}

output {
  elasticsearch{
      #action => "%{[@metadata][action]}"
      action =>"index"
      document_id => "%{[@metadata][_id]}"
      hosts => "192.168.0.70:9200"
      #index => "monitor-%{+YYYY.MM.dd}"
      index => "media"
      document_type => "doc"
    }

  if [@metadata][action] == "delete" {
    elasticsearch{
      action => "%{[@metadata][action]}"
      #action =>"index"
      document_id => "%{[@metadata][_id]}"
      hosts => "192.168.0.70:9200"
      #index => "monitor-%{+YYYY.MM.dd}"
      index => "media"
      document_type => "doc"
    }
  }
    
    #stdout {} #enable this option for debugging purpose
}

接下来就是运行命令

bin/logstash agent -f conf/db2es.conf &

这个配置文件比较好用了。通过action可以轻松的创建和删除索引。通过引用couchdb的document_id可以防止重复建索引。
当然它本身是根据couchdb的字段类型在elasticsearch里面建索引的,比如支持时间类型,但是couchdb似乎对时间类型的支持不太好,始终是以utc+0创建时间字段,所以在数据进入couchdb的时候最好先做处理。比如你存储的时间是UTC+8, couchdb会自动减去8小时作为你的存储时间。那么你在导入couchdb之前就要把时间多加上8小时,这样couchdb减去8小时后就正好是你想要的时间。再不然就需要在同步到elasticsearch的时候处理一下以保证索引时间在正确的时区。

上一篇 下一篇

猜你喜欢

热点阅读