2016-04-18 5 views
0

私はアプリケーションをNutch 1.3からNutch 1.11にアップグレードしました。以前は、Nutch 1.3をクロールしながらexample.com/とexample.com/index.htmlの2つのURLを取得していました。nutch 1.11の場合、example.com/とexample.com/index.htmlは同じと見なされますか?

アップグレード後、私は2つのいずれかを持っています。私はアップグレードしていることを確認したいnutchはこれを検出するほどスマートですか?

答えて

1

Nutchの1.11クロールしますインデックスの両方example.comおよび所与example.com/index.html、その両方が、種子に含まれるまたは種子のいずれ

  • URLの正規化からリンクを介して到達可能である

    1. またはフィルタルールは、彼らが何も重複していないの両方を受け入れ、1
    2. を正規化していない(同じ内容)
    3. それらの両方が実ページとnoリダイレクト

    2について:正規化を行うregex-normalize.xmlにルールがあります。重複排除機能が大幅にNutchの1.8用に改良されており、現在、直接CrawlDbのインデックスが、フラグの重複には何の操作ではありません:

    <!-- changes default pages into standard for /index.html, etc. into/
    <regex> 
        <pattern>/((?i)index|default)\.((?i)js[pf]{1}?[afx]?|cgi|cfm|asp[x]?|[psx]?htm[l]?|php[3456]?)(\?|&amp;|#|$)</pattern> 
        <substitution>/$3</substitution> 
    </regex> --> 
    

    3について:デフォルトでは、(コメントアウト)ではないアクティブです。ただし、両方のURLがフェッチされていることがログに記録されている必要があります。複製は後でフェッチされたコンテンツのチェックサムに基づいて行われます。

  • +0

    ポイント1:はい、それらは到達可能で、取得されます(ログで確認しました) ポイント2:私の場合もコメントされています。 ポイント3:両方のポイントがindex.htmlであると思われる重複コンテンツがあります。 ポイント4:両方が同じページを指しているため。 同じ内容のために、nutchがそのうちの1つを索引付けしています。 ご協力ありがとうございます! – rocksta

    関連する問題