Nutch：すべてのURLのシードURLを取得

Nutchを画像クローラとして設定しようとしていますが、すでにクロール後に画像URLを取得する可能性があります。各画像URLのシードURLを取得したいのですが、どうすればいいですか？ありがとうございました！Nutch：すべてのURLのシードURLを取得

2012-01-26 juffun

クロールされたセグメントからlinkdb（逆インデックス）を生成して、URLの親を取得する可能性があります。 URLに親が1つある場合、そのURLの種となります。
コマンドのヘルプについては、thisおよびthisをお読みください。

2012-04-03 15:24:11

答えて