私のプロジェクトではDbpediaを使用しています。オンラインのものが信頼できないため、ローカルのsparqlエンドポイントを作成したいと考えました。データダンプ(大きなNTファイル)をダウンロードし、Jena TDBを使用することに決めました。 NetBeans IDEを使用して、ソースNTファイルを読み込むための入力ストリームを使用して、その後datasetGraphにNTファイルをロードするために、次のコード行を使用しています:大きなNtripleデータをjena tdbにロードする方法
TDBLoader.load(indexingDataset, inputs, true);
私はそれが今で約5時間、実行してみましょうとそれはまだ行われていません。私のラップトップでこれをやっている間は、おそらくすべての私の物理的なメモリ空間を取っているので、おそらく遅くなるようです。これを行うより速い方法はありますか?
ドキュメントでは、tdbloader2を使用すると言われていますが、Windowsを使用している間はlinuxでのみ使用できます。 cygwinを使ってWindowsでこのツールを使う方法を誰かに教えてもらえると本当に役に立ちます。私はWindowsでCygwinを実際に使ったことがないことを考慮してください。
私は現在、tdbloader2を使用して1億2000万回のトリプルをTDBにロードしています。かなり遅い(8時間以上)、ロードが進むにつれて減速するようです。それらのベンチマークはtdbloader2、tdbloader3、tdbloader4を比較していますか?または、複数のTDBデータベースをマージする方法はありますか?アドバイスをいただければ幸いです。 –