2017-12-01 14 views
1

私は10TBを超えるデータをクロールしてインデックスを作成する必要があるプロジェクトに取り組んでいます。時間のかかるインクリメンタルクロールを実装する必要があります。ファイルシステムとインデックスをクロールするのに最適な方法

私の質問は次のとおりです: これはJavaとともに、すべての大きな組織が使用している最適なツールですか?

私はSolrとManifold CFを使って試していましたが、マニフォールドはインターネット上の資料がほとんどありません。 オープンソースJSOUPSolrJ API、 クリアときちんと簡単understableドキュメンテーションで行くことにのJava最高を使用して、任意のクロールの活動のために

答えて

1

Jsoupは、現実世界のHTMLを扱うためのJavaライブラリです。これは、DOM、CSS、およびjqueryのようなメソッドを使用して、データを抽出して操作するための非常に便利なAPIを提供します。

SolrJは、JavaアプリケーションがSolrと簡単に通信できるようにするAPIです。 SolrJは、Solrへの接続の詳細を隠し、アプリケーションが単純な高水準の方法でSolrとやりとりすることを可能にします。

以上のオプションのために、あなたはまた、私はHTMLを解析するつもりはないのjava API

+0

Elasticsearchを試すことができます。 WindowsやLinux上に存在するNTFSベースのファイルシステムをクロールする必要があります。私は実用的なソリューションを持っていますが、業界標準に準拠する必要があると感じています。また、クロールを必要とするデータが多いので、クラスタを使用して効果的な増分クロールを実装する必要があります。この目的のために、マニホールドCFが絵になるが、それは十分に効率的に見えない。 –

+0

その答えは私が尋ねたものにも近くない。 –

関連する問題