WARCファイル（WebArchive）からデータをインポートする

私はWARCファイルにデータが存在するとは言わない通常の使用例を扱っています。 [https://en.wikipedia.org/wiki/Web_ARChive][1] そして、私はNeo4jにデータをインポートしたいと思います。WARCファイル（WebArchive）からデータをインポートする

1つの解決策は、WARCファイル（一部のJavaコードを読み込む）を解析し、構造化データをCSVに書き込んで、いくつかのインポートツールを使用してロードできるようにすることです。

データをNeo4jにロードする唯一のオプションはCSVに抽出されていますか？

このユースケースの実装方法についてアドバイスをいただけますか？

おかげで、
Phaneendra

出典

2017-07-03 brownfox

それは依存しています。

Webアーカイブから読み込むデータによって異なります。メタデータの読み込みについて話している場合は、中間ステップは必要なく、ファイルを処理してデータをデータベースに直接挿入します。そのためにストアドプロシージャを使用することもできます（apocライブラリには似たようなものがたくさんあります）か、好みの言語+ドライバを使用している小さなサーバーアプリケーションを使用することができます。

Webアーカイブ内のコンテンツについて話しているなら、それは別の話です。 Neo4jはブロブ/ドキュメントストアではないため、アーカイブファイルを抽出して解釈する必要があります。それはおそらく、間接的なプロセスにおいてより効率的であろう。

希望これはところでcsvファイルを読み込むことができる唯一の形式ではありません、トム

に役立ちます。 xml、json、...をロードする手順があります。

出典

2017-07-03 08:48:35

私が探しているのは、第2の選択肢 - 「抽出と解釈」ですね。データの抽出はneo4jの範囲外です。私はこの質問にもjavaタグを使用していますので、私はここでこの分野に関するいくつかのガイダンスを要求したいと思います。私は、「構造化されていないコンテンツから構造を作成する方法」が何であるかを考えています。フィールド1、フィールド2 ...を特定のドキュメントから抽出したいという設定が必要です。抽出する方法はいくつか定義されています。ある人が有用なリソースを指す場合は、ベストプラクティス。それは素晴らしいだろう。 – brownfox

WARCファイル（WebArchive）からデータをインポートする

答えて

関連する問題