Nutchを使用して指定されたURLリストをクロールする

私は取得する100万のURLリストを持っています。私はこのリストをナッチの種子として使用し、Nuchのコマンドクロールのコマンドを使用してそれらを取得します。しかし、NutchはリストにないURLを自動的に取得することがわかりました。私は、-depth 1 -topN 1000000というようにクロールパラメータを設定します。しかし、動作しません。誰もこれを行う方法を知っていますか？Nutchを使用して指定されたURLリストをクロールする

出典

2012-02-06 Xiao

nutch-site.xmlにこのプロパティを設定します。（デフォルトでは真ですので、クローラにアウトリンクを追加します）

<property> 
    <name>db.update.additions.allowed</name> 
    <value>false</value> 
    <description>If true, updatedb will add newly discovered URLs, if false 
    only already existing URLs in the CrawlDb will be updated and no new 
    URLs will be added. 
    </description> 
</property>

出典

2012-04-03 15:54:23

（URLは行ごとに1URLを列挙されている）シード・ファイルを作成し、更新
クロールを削除し、（前に作成した場合）ディレクトリをURLに
再起動クロールプロセス

コマンド

nutch crawl urllist -dir crawl -depth 3 -topN 1000000

urllist - 問題が解決しない場合でも、あなたのNutchのフォルダーを削除して、全体のプロセスを再起動しようとするディレクトリ名

- シードファイル（URLリスト）が

クロール存在するディレクトリ。

出典

2012-02-06 05:52:22 Debaditya

Nutchがシードからのアウトリンクをクロールすることは望ましくありません。 – Xiao

Nutchを使用して指定されたURLリストをクロールする

答えて

関連する問題