Apache Nutch 1.12をローカルモードで実行しています。Apache Nutch再起動クロール
シードファイルを編集してサブドメインを削除し、新しいドメインをいくつか追加して、最初からクロールを再開する必要がありました。
問題クロールを再開するたびに、停止した場所からクロールが再開されます。これは、削除されたサブドメインの途中です。
私はJavaプロセス(kill -9)を強制終了してクロールを停止しました。私はbinディレクトリに.STOPファイルを作成しようとしましたが、動作しませんでしたのでkillを使用しました。
これで、クロールを再開するたびに、出力からジョブが停止した場所が再開されます。私はグーグルで、hadoopの仕事を止めて来たのですが、私のサーバーにはhadoopファイルがありません。ただ、hadoopへの参照はApacheのnutchディレクトリにあるjarファイルだけです。
クロールが最後に停止した場所からではなく、最初からクロールを再開することはできますか?効果的に私は新鮮なクロールを始めたい。
感謝
ありがとうございます - 私は別のクロールを指定するだけでした。 – user12345