私はElasticsearchをインデクサー、Nutchをクローラーとして使用して小さな垂直検索エンジンを構築しています。私はHTML
タイトルフィールドを使用して、edge n gram
戦略を使用してESの検索候補を作成しました。タイトルフィールドは、ページの件名に関する関連用語を含める必要があり、検索に関してインデックスを小さくするそれらの言葉やフレーズにすることができます。しかし、これまでのテストでは、思考通りにはうまくいかない...多くの提案が現れているわけではありません。Elasticsearchを使用した検索のヒント
現在、私は約10のサイトを使用してテストを行っていますが、最終的には500程度に達します。私は、小さなデータセット(10サイト、HTML
タイトルフィールドのみ)のために、おそらくは、少なくともフレーズの提案は、とにかく良い提案をするのに十分な用語やフレーズがないと思っています。
タイトルフィールドにedge n gram
戦略を使用してさらに多くの候補(用語とフレーズ)を作成するだけでサイトをクロールすることをお勧めしますか(タイトルフィールドよりもはるかに大きいコンテンツフィールドを使用する必要があります)。
パフォーマンスを損なわないように、インデックスのサイズに注意しながら、より多くの検索候補、特にフレーズ候補を得るために、これを微調整しようとしています。何か案は?
私のローカルUbuntuマシンですが、開発が終わったら、私はawsを使うつもりです。 – user3125823
私は、少なくとも初期段階では、提案はおそらく結果よりも重要であることに同意します。あなたが言うことは理にかなっています。まず最初に提案しておき、後でパフォーマンスについて心配してください – user3125823