Apache Nutch再起動クロール

Apache Nutch 1.12をローカルモードで実行しています。Apache Nutch再起動クロール

シードファイルを編集してサブドメインを削除し、新しいドメインをいくつか追加して、最初からクロールを再開する必要がありました。

問題クロールを再開するたびに、停止した場所からクロールが再開されます。これは、削除されたサブドメインの途中です。

私はJavaプロセス（kill -9）を強制終了してクロールを停止しました。私はbinディレクトリに.STOPファイルを作成しようとしましたが、動作しませんでしたのでkillを使用しました。

これで、クロールを再開するたびに、出力からジョブが停止した場所が再開されます。私はグーグルで、hadoopの仕事を止めて来たのですが、私のサーバーにはhadoopファイルがありません。ただ、hadoopへの参照はApacheのnutchディレクトリにあるjarファイルだけです。

クロールが最後に停止した場所からではなく、最初からクロールを再開することはできますか？効果的に私は新鮮なクロールを始めたい。

感謝

2017-06-19 user12345

が違うだけクロールディレクトリを指定するか、既存のものを削除し、ゼロからスタートします。

シードリストからエントリを削除しても、crawldbまたはセグメントの内容には影響しません。ゼロから再起動せずにドメインを削除するには、URLフィルタにパターンを追加して、更新ステップ中にcrawldbから削除されるか、少なくとも生成ステップ中に選択されないようにすることができます。

2017-06-20 11:02:46

ありがとうございます - 私は別のクロールを指定するだけでした。 – user12345

答えて