2017-05-11 4 views

答えて

0

あなたは、あなたの質問のために選択したタグが示すように、ウェブ・クローラーを作成する必要がしようとしています。当然のことながら、いくつかの言語/フレームワークがあります。

自分自身がWebクローリングアプリケーションにRubyを使用するのが好きです。私の宝石バンドルには、

Mechanize 
Nokogiri 
Anemone 

が含まれています。Mechanizeでは、フォーム送信ボタンやページネーションリンクなどのページ上の要素をプログラムでクリックできます。 Nokogiriでは、XMLを使用してページの要素を解析することができます。 AnemoneはNokogiriとRobotsの宝石を使って、ほんの数行のコードでサイト全体をクロールすることができます。

ウェブスクラップ/クロールをよく理解するには、Bastard's Book of Rubyをお勧めします。

http://ruby.bastardsbook.com

Pythonはまた、廃棄のためのいくつかの優れたライブラリを持っています。ヒッチハイカーのPythonガイド[no、私は名前をつくっていません]で始めることができます:)。

http://docs.python-guide.org/en/latest/scenarios/scrape/

以上に、このガイドのWebスクラップ101

http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/

関連する問題