NEO4J importer工具使用

2019-11-05 本文已影响0人花开见藕

导入的基本格式

neo4j-admin import [--mode=csv] [--database=<name>]
                          [--additional-config=<config-file-path>]
                          [--report-file=<filename>]
                          [--nodes[:Label1:Label2]=<"file1,file2,...">]
                          [--relationships[:RELATIONSHIP_TYPE]=<"file1,file2,...">]
                          [--id-type=<STRING|INTEGER|ACTUAL>]
                          [--input-encoding=<character-set>]
                          [--ignore-extra-columns[=<true|false>]]
                          [--ignore-duplicate-nodes[=<true|false>]]
                          [--ignore-missing-nodes[=<true|false>]]
                          [--multiline-fields[=<true|false>]]
                          [--delimiter=<delimiter-character>]
                          [--array-delimiter=<array-delimiter-character>]
                          [--quote=<quotation-character>]
                          [--max-memory=<max-memory-that-importer-can-use>]
                          [--f=<File containing all arguments to this import>]
                          [--high-io=<true/false>]

例子

neo4j_home$ bin/neo4j-admin import --nodes "import/movies_header.csv,import/movies.csv" \
--nodes "import/actors_header.csv import/actors.csv" \
--relationships "import/roles_header.csv,import/roles.csv"

CSV header 的格式

csv 的header中需要包含每个字段的信息使用格式<name>:<field_type>

数据类型

使用int，long，float，double，boolean，byte，short，char，string，point，date，localtime，time，localdatetime，datetime和duration中的一种来指定属性的数据类型。如果没有给出数据类型，则默认为字符串。

下面是一个csv header的例子

:ID,name,joined:date,active:boolean,points:int
user01,Joe Soap,2017-05-05,true,10
user02,Jane Doe,2017-08-21,true,15
user03,Moe Know,2018-02-17,false,7

node 文件

包含node数据的文件拥有一个ID 字段，一个Label字段，还有一些属性字段。

每个node必须具有唯一的ID。这些ID用于在创建relationship时查找正确的node。该ID在导入中的所有node之间必须是唯一的；即使是带有不同标签的节点。如果未指定ID，则将导入该节点，但是在导入过程中将无法通过任何关系连接该节点。

Label

从此字段读取一个或多个标签。像数组值一样，多个标签用分号';'字符分隔。
下面是一个csv的header 的例子

movieId:ID,title,year:int,:LABEL

它的header下的内容如下


tt0133093,"The Matrix",1999,Movie
tt0234215,"The Matrix Reloaded",2003,Movie;Sequel
tt0242653,"The Matrix Revolutions",2003,Movie;Sequel

Relationship 文件

12.6.2.4. Relationship files
包含关系数据的文件包含下面3个字段它们分别是：

TYPE
这个文件包含的关系类型

START_ID

关系起点的node ID

END_ID

关系终点的node ID

START_ID 都指向END_ID node数据中的ID

下面是一个Relationship文件的例子

:START_ID,role,:END_ID,:TYPE
keanu,"Neo",tt0133093,ACTED_IN
keanu,"Neo",tt0234215,ACTED_IN
keanu,"Neo",tt0242653,ACTED_IN
laurence,"Morpheus",tt0133093,ACTED_IN
laurence,"Morpheus",tt0234215,ACTED_IN
laurence,"Morpheus",tt0242653,ACTED_IN
carrieanne,"Trinity",tt0133093,ACTED_IN
carrieanne,"Trinity",tt0234215,ACTED_IN
carrieanne,"Trinity",tt0242653,ACTED_IN

命令选项介绍

--database=<name>
数据库名称默认: graph.db
--additional-config=<config-file-path>
额外配置文件位置
--mode=<database|csv>
模式默认: csv
--report-file=<filename>
保存 csv-import报告文件的位置 Default: import.report
--nodes[:Label1:Label2]=<"headerfile,file1,file2,…">
包含node header与数据的csv文件的位置，第一行必须包含header, 如果是多个文件，每个文件都要有其自己的 header

--relationships[:RELATIONSHIP_TYPE]=<"headerfile,file1,file2,…">
Relationship csv的header与数据文件

--id-type=<STRING|INTEGER|ACTUAL>
id类型默认: STRING
--input-encoding=<character-set>
输入文件编码默认: UTF-8
--ignore-extra-columns=<true/false>
忽视额外的列 Default: false
--ignore-duplicate-nodes=<true/false>
导入时如有重复自动忽视. Default: false
--ignore-missing-nodes=<true/false>
两个关系数据中有空的node自动忽视 Default: false
--multiline-fields=<true/false>
是否运行一个字段包含多行既一个字段文本中包含换行符 Default: false
--delimiter=<delimiter-character>
分割符号 Default: ,
--array-delimiter=<array-delimiter-character>
一个数组字段的分割符 Default: ;
--quote=<quotation-character>
引号字符 Default: "
--max-memory=<max-memory-that-importer-can-use>
importer能使用的最大内存 Default: 90%
--f=<arguments-file>
包含使用参数的文件
--high-io=<true/false>
是否存储设备支持并行IO，通常使用SSD时设置为true