Nutch/Solrのインデックスと検索結果にURLパラメータを追加する

URLパラメータをフィルタリング/削除しないようにNutchを設定する方法に関するヒントは見つかりません。多くのコンテンツが同じベースURLの背後に隠れているページをクロールしてインデックスを作成したい（/news.jsp?id=1/news.jsp?id=2/news.jsp?id=3など））。Nutch/Solrのインデックスと検索結果にURLパラメータを追加する

正規表現normalize.xmlのみ（セッションIDのような、および末尾の？）URLから冗長なものを削除し
正規表現urlfilter.txtは、私のホストのワイルドカードを持っているようだ（+^http：// $ myHost /）

クロールはこれまでのところうまく機能します。何か案は？

歓声、マナ

EDIT：

ソリューションの一部はここに隠されている：

configuring nutch regex-normalize.xml

# skip URLs containing certain characters as probable queries, etc. 
-[?*[email protected]=]

はmodfiedする必要があります。 '？'のようなURLパラメータに存在する可能性があるすべての文字を許可する必要があります。と '='。新しい行は次のようになります

-[*[email protected]]

ページは現在パラメータでクロールされています。

Nutchのは（「？PARAM =値」）相対URLを処理する方法についていくつかの問題があります。しかし、彼らはまだ

EDIT2（Solrにはまだリンクからパラメータを切る）パラメータでのSolrに送信されていません。まだそのパラメータの事に貼り付け：

参照用のメーリングリスト：http://search.lucidimagination.com/search/document/b6011a942b323ba3/problem_with_href_param_value_links

出典

2011-06-27 mana

あなたは全体のURLを保存するためにNutchのフィルタでカスタムフィールドを作成することができます。 store = "true"のSolrスキーマで同じフィールドを定義している限り、そのフィールドは結果に表示されます。 WritingPluginExample-1.2を参照してください。

あなたに助けが必要かどうかお知らせください。

出典

2011-06-30 23:26:37 Claude

Nutch/Solrのインデックスと検索結果にURLパラメータを追加する

答えて

関連する問題