URLパラメータをフィルタリング/削除しないようにNutchを設定する方法に関するヒントは見つかりません。多くのコンテンツが同じベースURLの背後に隠れているページをクロールしてインデックスを作成したい(/news.jsp?id=1/news.jsp?id=2/news.jsp?id=3など) )。Nutch/Solrのインデックスと検索結果にURLパラメータを追加する
- 正規表現normalize.xmlのみ(セッションIDのような、および末尾の?)URLから冗長なものを削除し
- 正規表現urlfilter.txtは、私のホストのワイルドカードを持っているようだ(+^http:// $ myHost /)
クロールはこれまでのところうまく機能します。何か案は?
歓声、 マナ
EDIT:
ソリューションの一部はここに隠されている:
configuring nutch regex-normalize.xml
# skip URLs containing certain characters as probable queries, etc.
-[?*[email protected]=]
はmodfiedする必要があります。 '?'のようなURLパラメータに存在する可能性があるすべての文字を許可する必要があります。と '='。新しい行は次のようになります
-[*[email protected]]
ページは現在パラメータでクロールされています。
Nutchのは(「?PARAM =値」)相対URLを処理する方法についていくつかの問題があります。しかし、彼らはまだ
EDIT2(Solrにはまだリンクからパラメータを切る)パラメータでのSolrに送信されていません。まだそのパラメータの事に貼り付け:
参照用のメーリングリスト:http://search.lucidimagination.com/search/document/b6011a942b323ba3/problem_with_href_param_value_links