2016-04-19 1 views
0

Googleのnグラムから収集したデータを使ってデータベースを作成しようとしています。実際には大量のデータですが、CSVファイルを作成した後は挿入がかなり高速でした。問題は、挿入直後にneo4j-importツールがデータにインデックスを付けることであり、このステップは時間がかかりすぎるということです。 1時間以上経過しており、進捗状況の10%を達成したようです。.CSVファイルをNeo4jでバッチ挿入すると、ソートとインデックスに膨大な時間がかかります

Nodes 
[*>:9.85 MB/s---------------|PROPERTIES(2)====|NODE:198.36 MB--|LABE|v:22.63 MB/s-------------] 25M 
Done in 4m 54s 828ms 
Prepare node index 
[*SORT:295.94 MB-------------------------------------------------------------------------------] 26M 

これはコンソール情報atmです。誰もこのプロセスをスピードアップするために何をすべきかについての示唆を持っていますか?

ありがとうございます。 (:

答えて

1

ノードの数によってはインデックスに時間がかかりますが、1,000万のノードでインデックスを作成したところ、約35分かかりましたが、これらの設定を試すことができます:
保存されているページキャッシュサイズを増やします(私のUbuntuシステムにおける) '/var/lib/neo4j/conf/neo4j.properties' ファイル。
編集し、次の行

dbms.pagecache.memory=4g 

あなたのRAMに応じて、サイズを割り当て、ここでは、4gは4ギガバイトのスペースを意味します。また、neo4j-wrapper.confに格納されているJavaメモリサイズを変更することもできます。

wrapper.java.initmemory=1024 
wrapper.java.maxmemory=1024 

また、neo4jのドキュメントを読むことができます - http://neo4j.com/docs/stable/configuration-io-examples.html

関連する問題