私は500社のリストを持っています。特定のウェブサイトに各名前が何回表示されるかを知る必要があります。それはSEOのためではない、特定の名前がStackoverflowでここに言及されているかどうかを確認することです。どのようにして特定のウェブサイトで大きなキーワードリストを検索できますか
おかげ T
私は500社のリストを持っています。特定のウェブサイトに各名前が何回表示されるかを知る必要があります。それはSEOのためではない、特定の名前がStackoverflowでここに言及されているかどうかを確認することです。どのようにして特定のウェブサイトで大きなキーワードリストを検索できますか
おかげ T
あなたは、あなたの質問のために選択したタグが示すように、ウェブ・クローラーを作成する必要がしようとしています。当然のことながら、いくつかの言語/フレームワークがあります。
自分自身がWebクローリングアプリケーションにRubyを使用するのが好きです。私の宝石バンドルには、
Mechanize
Nokogiri
Anemone
が含まれています。Mechanizeでは、フォーム送信ボタンやページネーションリンクなどのページ上の要素をプログラムでクリックできます。 Nokogiriでは、XMLを使用してページの要素を解析することができます。 AnemoneはNokogiriとRobotsの宝石を使って、ほんの数行のコードでサイト全体をクロールすることができます。
ウェブスクラップ/クロールをよく理解するには、Bastard's Book of Rubyをお勧めします。
Pythonはまた、廃棄のためのいくつかの優れたライブラリを持っています。ヒッチハイカーのPythonガイド[no、私は名前をつくっていません]で始めることができます:)。
http://docs.python-guide.org/en/latest/scenarios/scrape/
以上に、このガイドのWebスクラップ101
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/