私は10TBを超えるデータをクロールしてインデックスを作成する必要があるプロジェクトに取り組んでいます。時間のかかるインクリメンタルクロールを実装する必要があります。ファイルシステムとインデックスをクロールするのに最適な方法
私の質問は次のとおりです: これはJavaとともに、すべての大きな組織が使用している最適なツールですか?
私はSolrとManifold CFを使って試していましたが、マニフォールドはインターネット上の資料がほとんどありません。 オープンソースJSOUPとSolrJ API、 クリアときちんと簡単understableドキュメンテーションで行くことにのJava最高を使用して、任意のクロールの活動のために
でElasticsearchを試すことができます。 WindowsやLinux上に存在するNTFSベースのファイルシステムをクロールする必要があります。私は実用的なソリューションを持っていますが、業界標準に準拠する必要があると感じています。また、クロールを必要とするデータが多いので、クラスタを使用して効果的な増分クロールを実装する必要があります。この目的のために、マニホールドCFが絵になるが、それは十分に効率的に見えない。 –
その答えは私が尋ねたものにも近くない。 –