現在、28サイト(小規模、小規模)をクロールしており、クロールによって約25MBのデータが生成されています。私はElasticsearchでインデックスを作成し、自動完成のためにedge_n-gram
戦略を使用しています。いくつかのテストの後、私はより良い複数の単語(フレーズ)の提案を作成するために、より多くのデータが必要なようです。もっと多くのサイトをクロールできることはわかっていますが、Nutchが各サイトを完全にクロールできるようにする方法があります。edge_n_grams
でより良い検索候補を得るためのデータを作成する方法はありますか?Nutchで深くクロールする方法
OR
これはさえ失われた原因であり、私が持っているどのくらいのデータに関係なくは、クエリを検索するユーザーをログインすることで、より良いマルチ単語提案を作成するための最良の方法ですか?
あなたの答えをありがとう、確かに試してみるいくつかのものを私に与えます。私はedge_n_gram戦略が最高ではないが、開始することを知っている、最終的にロギングが採用される – user3125823