ファイルシステムとインデックスをクロールするのに最適な方法

私は10TBを超えるデータをクロールしてインデックスを作成する必要があるプロジェクトに取り組んでいます。時間のかかるインクリメンタルクロールを実装する必要があります。ファイルシステムとインデックスをクロールするのに最適な方法

私の質問は次のとおりです：これはJavaとともに、すべての大きな組織が使用している最適なツールですか？

私はSolrとManifold CFを使って試していましたが、マニフォールドはインターネット上の資料がほとんどありません。 オープンソースJSOUPとSolrJ API、クリアときちんと簡単understableドキュメンテーションで行くことにのJava最高を使用して、任意のクロールの活動のために

出典

2017-12-01 Shashank Raj

。

Jsoupは、現実世界のHTMLを扱うためのJavaライブラリです。これは、DOM、CSS、およびjqueryのようなメソッドを使用して、データを抽出して操作するための非常に便利なAPIを提供します。

SolrJは、JavaアプリケーションがSolrと簡単に通信できるようにするAPIです。 SolrJは、Solrへの接続の詳細を隠し、アプリケーションが単純な高水準の方法でSolrとやりとりすることを可能にします。

以上のオプションのために、あなたはまた、私はHTMLを解析するつもりはないのjava API

出典

2017-12-01 09:53:59

でElasticsearchを試すことができます。 WindowsやLinux上に存在するNTFSベースのファイルシステムをクロールする必要があります。私は実用的なソリューションを持っていますが、業界標準に準拠する必要があると感じています。また、クロールを必要とするデータが多いので、クラスタを使用して効果的な増分クロールを実装する必要があります。この目的のために、マニホールドCFが絵になるが、それは十分に効率的に見えない。 –

その答えは私が尋ねたものにも近くない。 –

ファイルシステムとインデックスをクロールするのに最適な方法

答えて

関連する問題