2012-01-22 9 views
0

いくつかのシードURLから始まる約2000〜3000のWebページからなるデータセットを構築したいとします。私はNutchクローラーを使ってそれを試みましたが、私はそれを行うことができませんでした(htmlページにフェッチされた 'セグメント'データを変換することができませんでした)。ウェブクロールによるデータセットの作成

あなたが使用したクローラや他のツールの提案はありますか?ウェブページに絶対URLが含まれているため、データセットをオフラインで使用できない場合はどうなりますか?

答えて

1

Nutchのクロールされたセグメントを直接htmlファイルに直接変換することはできません。

私はあなたにこれらのオプションをお勧め:

  1. あなたはそれを行うためのソースコードを変更してみてください。 (org.apache.nutch.segment.SegmentReaderクラスを調べて、それを掘り下げてユースケースごとに作業を変更できます)。
  2. 簡単な解決策コードを学習する時間を費やしたくない場合:必要なすべてのページをクロールするにはnutchを使用します。次に、 "bin/nutch readdb"コマンド(ダンプオプションを使用)を使用して実際のURLをクロールします。その後、URLをwgetしてhtml形式で保存するスクリプトを作成します。完了!
+0

私はこのツールHTTrackを使用しています(ただし、データセットを作成してオンラインでクロールするためのアイデアはなくなりました)。ご回答有難うございます。 – KillBill

関連する問題