2016-04-29 19 views
0

私はElasticsearchをインデクサー、Nutchをクローラーとして使用して小さな垂直検索エンジンを構築しています。私はHTMLタイトルフィールドを使用して、edge n gram戦略を使用してESの検索候補を作成しました。タイトルフィールドは、ページの件名に関する関連用語を含める必要があり、検索に関してインデックスを小さくするそれらの言葉やフレーズにすることができます。しかし、これまでのテストでは、思考通りにはうまくいかない...多くの提案が現れているわけではありません。Elasticsearchを使用した検索のヒント

現在、私は約10のサイトを使用してテストを行っていますが、最終的には500程度に達します。私は、小さなデータセット(10サイト、HTMLタイトルフィールドのみ)のために、おそらくは、少なくともフレーズの提案は、とにかく良い提案をするのに十分な用語やフレーズがないと思っています。

タイトルフィールドにedge n gram戦略を使用してさらに多くの候補(用語とフレーズ)を作成するだけでサイトをクロールすることをお勧めしますか(タイトルフィールドよりもはるかに大きいコンテンツフィールドを使用する必要があります)。

パフォーマンスを損なわないように、インデックスのサイズに注意しながら、より多くの検索候補、特にフレーズ候補を得るために、これを微調整しようとしています。何か案は?

答えて

0

最近では、検索結果自体よりも提案が重要だと言えるでしょう。これはやや無意味ですが、私は知っています。しかし、ユーザーは、提案がなければ検索結果はないと予想する傾向があります。したがって、すべての検索可能なフィールドがあなたの提案---特にあなたのコンテンツに適切に反映されていることを確認してください。そして「後で最適化する」!あまりに早くあなたのパフォーマンスを見ないでください。とにかく多くの文書がインデックスに登録されるように、500のサイトは聞こえません。どのような種類のハードウェアを使用していますか?

+0

私のローカルUbuntuマシンですが、開発が終わったら、私はawsを使うつもりです。 – user3125823

+0

私は、少なくとも初期段階では、提案はおそらく結果よりも重要であることに同意します。あなたが言うことは理にかなっています。まず最初に提案しておき、後でパフォーマンスについて心配してください – user3125823

関連する問題