2012-01-26 7 views
0

Nutchを画像クローラとして設定しようとしていますが、すでにクロール後に画像URLを取得する可能性があります。 各画像URLのシードURLを取得したいのですが、どうすればいいですか? ありがとうございました!Nutch:すべてのURLのシードURLを取得

答えて

0

クロールされたセグメントからlinkdb(逆インデックス)を生成して、URLの親を取得する可能性があります。 URLに親が1つある場合、そのURLの種となります。
コマンドのヘルプについては、thisおよびthisをお読みください。

関連する問題