Elasticdump 使用简记

2023-06-04  本文已影响0人  码农工号9527

简介

Elasticdump 是一个用于迁移和备份 Elasticsearch 数据的工具,它允许将数据从一个 Elasticsearch 索引或集群导出到文件中,也可以将文件中的数据导入到 Elasticsearch 索引或集群中。

使用条件:需要安装node

linux下

1.下载node.js包

wget https://nodejs.org/dist/v10.13.0/node-v10.13.0-linux-x64.tar.gz

2.解压node.js包

3.创建链接接

ln -s ~/node-v10.13.0-linux-x64/bin/node /usr/bin/node
ln -s ~/node-v10.13.0-linux-x64/bin/npm /usr/bin/npm

4.查看是否链接成功

node -v
npm -v

win下

可以通过这个文章的步骤来操作,windows 安装node及环境配置

安装elasticdump

本地:

npm install elasticdump
./bin/elasticdump

全局:

npm install elasticdump -g
elasticdump

使用elasticdump

Elasticdump的工作原理是将input发送到output
格式:{protocol}://{host}:{port}/{index},例:http://127.0.0.1:9200/my_index

使用例子

1.使用分析器和映射将索引从生产复制到暂存:

elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=http://staging.es.com:9200/my_index \
  --type=analyzer
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=http://staging.es.com:9200/my_index \
  --type=mapping
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=http://staging.es.com:9200/my_index \
  --type=data

2.将索引数据备份到文件:

elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=/data/my_index_mapping.json \
  --type=mapping
elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=/data/my_index.json \
  --type=data

3.使用stdout备份和索引到gzip:

elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=$ \
  | gzip > /data/my_index.json.gz

4.将查询结果备份到文件:

elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=query.json \
  --searchBody="{\"query\":{\"term\":{\"username\": \"admin\"}}}"

5.从文件中指定searchBody:

elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=query.json \
  --searchBody=@/data/searchbody.json  

6.复制单个shard数据:

elasticdump \
  --input=http://es.com:9200/api \
  --output=http://es.com:9200/api2 \
  --input-params="{\"preference\":\"_shards:0\"}"

7.将aliases备份到文件

elasticdump \
  --input=http://es.com:9200/index-name/alias-filter \
  --output=alias.json \
  --type=alias

8.导入aliases到ES

elasticdump \
  --input=./alias.json \
  --output=http://es.com:9200 \
  --type=alias

9.备份templates 到文件

elasticdump \
  --input=http://es.com:9200/template-filter \
  --output=templates.json \
  --type=template

10.导入 templates 到ES

elasticdump \
  --input=./templates.json \
  --output=http://es.com:9200 \
  --type=template

11.将文件拆分为多个部分

elasticdump \
  --input=http://production.es.com:9200/my_index \
  --output=/data/my_index.json \
  --fileSize=10mb

--s3AccessKeyId AWS access key ID
--s3SecretAccessKey AWS secret access key
--s3Region AWS region
--s3Bucket Name of the bucket to which the data will be uploaded
--s3RecordKey Object key (filename) for the data to be uploaded
--s3Compress gzip data before sending to s3

12.将数据从S3(AWS)导入ES (使用 s3urls)

elasticdump \
  --s3AccessKeyId "${access_key_id}" \
  --s3SecretAccessKey "${access_key_secret}" \
  --input "s3://${bucket_name}/${file_name}.json" \
  --output=http://production.es.com:9200/my_index

13.导出ES 数据到 S3(AWS) (使用 s3urls)

elasticdump \
  --s3AccessKeyId "${access_key_id}" \
  --s3SecretAccessKey "${access_key_secret}" \
  --input=http://production.es.com:9200/my_index \
  --output "s3://${bucket_name}/${file_name}.json"

Minio介绍: 官网 https://www.minio.org.cn/,Minio 是一个基于 Apache License v2.0 开源协议对象存储服务。它兼容亚马逊 S3 云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几 kb 到最大 5T 不等。

14.从 MINIO (s3 compatible) 导入数据到 ES (使用 s3urls)

elasticdump \
  --s3AccessKeyId "${access_key_id}" \
  --s3SecretAccessKey "${access_key_secret}" \
  --input "s3://${bucket_name}/${file_name}.json" \
  --output=http://production.es.com:9200/my_index
  --s3ForcePathStyle true
  --s3Endpoint https://production.minio.co

15.导出ES 数据到 MINIO (s3 compatible) (使用 s3urls)

elasticdump \
  --s3AccessKeyId "${access_key_id}" \
  --s3SecretAccessKey "${access_key_secret}" \
  --input=http://production.es.com:9200/my_index \
  --output "s3://${bucket_name}/${file_name}.json"
  --s3ForcePathStyle true
  --s3Endpoint https://production.minio.co

16.将CSV文件中的数据导入ES(使用csvurls)

elasticdump \
  # csv:// prefix must be included to allow parsing of csv files
  # --input "csv://${file_path}.csv" \
  --input "csv:///data/cars.csv"
  --output=http://production.es.com:9200/my_index \
  --csvSkipRows 1    # used to skip parsed rows (this does not include the headers row)
  --csvDelimiter ";" # default csvDelimiter is ','

本地实例使用例子

elasticdump \
--input=http://es用户:es密码@esip:es端口/索引名 \
--searchBody="{\"query\":{\"range\":{\"@timestamp\":{\"gte\":\"2023-06-01T00:00:00\",\"lt\":\"2023-06-01T23:59:59\"}}},\"_source\":[\"message\"]}" \
--output=my_index_mapping.json \
--type=data \
--limit=10000 \   
--concurrency=15 \
--scrollTime=10m

--searchBody:导出指定条件的数据,本例指定了了时间范围和只导_source里面的message
--output:导出到本地my_index_mapping.json文件
--type:导出类型 data
--limit:每个批次导出数量10000条,类似分页每页的数量
--concurrency:指定 worker 的数量。默认情况下并发 worker 的数量为 3,可以根据需要适当增加 worker 数量来提高导出速度。
--scrollTime:指定滚动窗口的时间,一旦滚动时间结束,Elasticsearch 就会关闭游标,这是一种较好的方式来减少游标的数量和内存占用。

此命令在我本地电脑执行了18min,导出了153W+数据,文件大小1.2G+,仅供参考。

上一篇 下一篇

猜你喜欢

热点阅读