Nutchで深くクロールする方法

現在、28サイト（小規模、小規模）をクロールしており、クロールによって約25MBのデータが生成されています。私はElasticsearchでインデックスを作成し、自動完成のためにedge_n-gram戦略を使用しています。いくつかのテストの後、私はより良い複数の単語（フレーズ）の提案を作成するために、より多くのデータが必要なようです。もっと多くのサイトをクロールできることはわかっていますが、Nutchが各サイトを完全にクロールできるようにする方法があります。edge_n_gramsでより良い検索候補を得るためのデータを作成する方法はありますか？Nutchで深くクロールする方法

これはさえ失われた原因であり、私が持っているどのくらいのデータに関係なくは、クエリを検索するユーザーをログインすることで、より良いマルチ単語提案を作成するための最良の方法ですか？

出典

2016-05-03 user3125823

あなたはあなただけの反復回数を増やすか、スクリプトを修正してsizeFetchlistパラメータ（https://github.com/apache/nutch/blob/master/src/bin/crawl#L117）を高めることができるbin/crawlコマンドを使用している場合は、いつでも、クロールするリンクの量を増やすことができます。このパラメータは、従来のbin/nutchスクリプトの引数topNとしてのみ使用されます。

このオプションは2.xブランチでも使用できます。

あなたはどのような提案をしていますか？私が開発したアプリでは、以前に開発した両方のアプローチ（弾性サーチの代わりにソルを使用していましたが、本質は同じです）を使用して、ユーザークエリを別のコレクション/インデックスにインデックス付けしました。 SolrはESのedge_n_gramsに相当）、これはユーザーが既に検索したものに基づいていくつかの基本的な質問の提案を提供しました。このアプローチを使用して提案が見つからなかった場合は、クロールされたコンテンツの内容に基づいて単一の用語を提案しようとしましたが、フロントエンドでjavascriptの調整が必要でした。

ウェブページ全体のテキストコンテンツを使用すると、コンテンツ全体のNGramが作成され、提案が関連性がないため、関連性が高い私はあなたの特定のユースケースを知らない。

出典

2016-05-03 18:53:53

あなたの答えをありがとう、確かに試してみるいくつかのものを私に与えます。私はedge_n_gram戦略が最高ではないが、開始することを知っている、最終的にロギングが採用される – user3125823

あなたがのtopNパラメータを渡すコマンドをクロールすることを計画している場合、あなたは、最新のApache Nutchの中でクロールコードを追加し、nutch.jobファイルを再構築http://big-analytics.blogspot.com.au/2016/05/building-apache-nutch-job-running.html

を使用することができます。

出典

2016-05-05 06:33:45

Nutchで深くクロールする方法

答えて

関連する問題