ウェブクロールによるデータセットの作成

いくつかのシードURLから始まる約2000〜3000のWebページからなるデータセットを構築したいとします。私はNutchクローラーを使ってそれを試みましたが、私はそれを行うことができませんでした（htmlページにフェッチされた 'セグメント'データを変換することができませんでした）。ウェブクロールによるデータセットの作成

あなたが使用したクローラや他のツールの提案はありますか？ウェブページに絶対URLが含まれているため、データセットをオフラインで使用できない場合はどうなりますか？

出典

2012-01-22 KillBill

Nutchのクロールされたセグメントを直接htmlファイルに直接変換することはできません。

私はあなたにこれらのオプションをお勧め：

あなたはそれを行うためのソースコードを変更してみてください。（org.apache.nutch.segment.SegmentReaderクラスを調べて、それを掘り下げてユースケースごとに作業を変更できます）。
簡単な解決策コードを学習する時間を費やしたくない場合：必要なすべてのページをクロールするにはnutchを使用します。次に、 "bin/nutch readdb"コマンド（ダンプオプションを使用）を使用して実際のURLをクロールします。その後、URLをwgetしてhtml形式で保存するスクリプトを作成します。完了！

出典

2012-04-03 15:10:40

私はこのツールHTTrackを使用しています（ただし、データセットを作成してオンラインでクロールするためのアイデアはなくなりました）。ご回答有難うございます。 – KillBill

ウェブクロールによるデータセットの作成

答えて

関連する問題