Nutchの特定のドメインのみをクロールしたい。それはこのFAQ linkapache nutchを使って外部リンクをクロールするのを防ぐ方法は?
問題に言われたように、このために私は真にdb.ignore.external.links
を設定し、シード・リストのリンクのみをクロールするNutchのスタートです。たとえば、 "nutch.apache.org"をseed.txtに入れると、同じURL(nutch.apache.org)のみが検索されます。
結果は、深さ200のクロールスクリプトを実行することで得られます。そして、1サイクルで終了し、以下のアウト・プットを生成します。
どうすればこの問題を解決できますか?
私はあなたが特定のドメインからのページだけを取得したいのApache Nutchのに1.11
Generator: starting at 2016-04-05 22:36:16
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: false
Generator: normalizing: true
Generator: topN: 50000
Generator: 0 records selected for fetching, exiting ...
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now
よろしく
で次のプロパティを追加します。参照URLを編集すると、フィルタの結果は以前と同じになります。 –
クロールスクリプトを実行している場合は、crawldbフォルダを削除してからもう一度実行してください。 – AVINASH
また、シードURLページにクローラがクロールできる他のリンクがあることを確認してください – AVINASH