私は取得する100万のURLリストを持っています。私はこのリストをナッチの種子として使用し、Nuchのコマンドクロールのコマンドを使用してそれらを取得します。しかし、NutchはリストにないURLを自動的に取得することがわかりました。私は、-depth 1 -topN 1000000というようにクロールパラメータを設定します。しかし、動作しません。誰もこれを行う方法を知っていますか?Nutchを使用して指定されたURLリストをクロールする
0
A
答えて
3
nutch-site.xml
にこのプロパティを設定します。 (デフォルトでは真ですので、クローラにアウトリンクを追加します)
<property>
<name>db.update.additions.allowed</name>
<value>false</value>
<description>If true, updatedb will add newly discovered URLs, if false
only already existing URLs in the CrawlDb will be updated and no new
URLs will be added.
</description>
</property>
2
- (URLは行ごとに1URLを列挙されている)シード・ファイルを作成し、更新
- クロールを削除し、(前に作成した場合)ディレクトリをURLに
- 再起動クロールプロセス
コマンド
nutch crawl urllist -dir crawl -depth 3 -topN 1000000
- urllist - 問題が解決しない場合でも、あなたのNutchのフォルダーを削除して、全体のプロセスを再起動しようとするディレクトリ名
- シードファイル(URLリスト)が
関連する問題
- 1. Nutchがseed.txtで指定されたURL以外のURLをクロールしない
- 2. Nutchを使用してクロールされたページの後処理
- 3. nutch 1.3のURLを再クロールする
- 4. 外部リンクがNutchでクロールされたベースURLへのパスをトレースします
- 5. カスタムURLを使用して指定されたビューを開く
- 6. どのように実行するか$ ./nutchはクロール/クロールURLを挿入する
- 7. Nutchは特定のサイトをクロールできませんでした
- 8. bin/nutchはクロール/クローリングURLを挿入しません。
- 9. Apache Nutchはrabbitmqにクロールされたドキュメントを書いています
- 10. Nutchのシードリストにクロール中に見つかったURLを挿入する方法
- 11. Nutchがページコンテンツをクロールしない
- 12. Ionic android - 指定されたURL(エラーコード:3)を使用してS3にファイルをアップロード
- 13. Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます
- 14. 指定された式を使用してリストの置換が可能です
- 15. Apache Nutch再起動クロール
- 16. Apache Nutchでクロール中のエラー
- 17. 指定されたキーストアを使用して署名するアプリケーション
- 18. 詐欺を使用した値リストからウェブサイトをクロールする
- 19. Scrapyを使用してWebページのURLをクロールする
- 20. シェルスクリプトを使用してURLをクロールする方法は?
- 21. NutchがクロールしたWebページの数を調べる方法は?
- 22. Nutchで深くクロールする方法
- 23. Nutch注入を使用してコンテンツをウェブURLにインデクシング
- 24. URLを使用してURLを指定すると、ドメインなしのリンクが返されます
- 25. Apache Nutch 1.4を使用してクロールおよび解析後に取得されたHTMLドキュメントから特定のタグを取得します。
- 26. apache nutchを使って外部リンクをクロールするのを防ぐ方法は?
- 27. 指定されたラベルタイプが適用されたClearCaseファイルのリスト
- 28. mediawiki:mediawiki APIを使用して、指定されたカテゴリのページを
- 29. 指定されたペアリストを使用してカメを描く
- 30. 指定されたURL(春)のコントローラを決定する方法
Nutchがシードからのアウトリンクをクロールすることは望ましくありません。 – Xiao