0
いくつかのシードURLから始まる約2000〜3000のWebページからなるデータセットを構築したいとします。私はNutchクローラーを使ってそれを試みましたが、私はそれを行うことができませんでした(htmlページにフェッチされた 'セグメント'データを変換することができませんでした)。ウェブクロールによるデータセットの作成
あなたが使用したクローラや他のツールの提案はありますか?ウェブページに絶対URLが含まれているため、データセットをオフラインで使用できない場合はどうなりますか?
私はこのツールHTTrackを使用しています(ただし、データセットを作成してオンラインでクロールするためのアイデアはなくなりました)。ご回答有難うございます。 – KillBill