を削減地図でNutchのからフェッチのWebページの抽出:次のように分布する(展開)モードでNutchのクロール後フレンドリーフォーマット
bin/nutch crawl s3n://..... -depth 10 -topN 50000 -dir /crawl -threads 20
私はマップ内でのコンテンツと一緒にフェッチされた各URLを抽出する必要が軽減フレンドリーなフォーマット。以下のreadsegコマンドを使用すると、内容がフェッチされますが、出力形式はマップの縮小に役立ちません。
bin/nutch readseg -dump /crawl/segments/* /output -nogenerate -noparse -noparsedata -noparsetext
理想的には出力がこの形式である必要があります。これを実現する方法について
http://abc.com/1 content of http://abc.com/1
http://abc.com/2 content of http://abc.com/2
任意の提案ですか?
ザッツ – Sid