2012-02-06 11 views
0

私は取得する100万のURLリストを持っています。私はこのリストをナッチの種子として使用し、Nuchのコマンドクロールのコマンドを使用してそれらを取得します。しかし、NutchはリストにないURLを自動的に取得することがわかりました。私は、-depth 1 -topN 1000000というようにクロールパラメータを設定します。しかし、動作しません。誰もこれを行う方法を知っていますか?Nutchを使用して指定されたURLリストをクロールする

答えて

3

nutch-site.xmlにこのプロパティを設定します。 (デフォルトでは真ですので、クローラにアウトリンクを追加します)

<property> 
    <name>db.update.additions.allowed</name> 
    <value>false</value> 
    <description>If true, updatedb will add newly discovered URLs, if false 
    only already existing URLs in the CrawlDb will be updated and no new 
    URLs will be added. 
    </description> 
</property> 
2
  • (URLは行ごとに1URLを列挙されている)シード・ファイルを作成し、更新
  • クロールを削除し、(前に作成した場合)ディレクトリをURLに
  • 再起動クロールプロセス

コマンド

nutch crawl urllist -dir crawl -depth 3 -topN 1000000 
  • urllist - 問題が解決しない場合でも、あなたのNutchのフォルダーを削除して、全体のプロセスを再起動しようとするディレクトリ名

- シードファイル(URLリスト)が

  • クロール存在するディレクトリ。

  • +1

    Nutchがシードからのアウトリンクをクロールすることは望ましくありません。 – Xiao

    関連する問題