2012-03-21 7 views
-2

スクラップしたいページがあります。URLに変数を渡して特定のコンテンツを生成することができます。すべてのコンテンツは、巨大なHTMLテーブルに入っています。ウェブページをスクラップして.csvに保存する最も簡単な方法

私は、これらの異なるページを180回通過し、テーブルの特定の列から特定の情報を抽出し、数学を行い、.csvファイルに書き込むスクリプトを作成する方法を探しています。そうすれば、私はデータを自分自身でさらに分析することができます。

ウェブページをスクラップしてHTMLを解析し、そのデータを.csvファイルに保存する最も簡単な方法は何ですか?

私はPythonとPHPで同様のことをしていますが、HTMLを解析するのが最も簡単なやり方ではありません。より簡単なルートがありますか?

+0

ウェブスクレイピングは**データマイニング**ではありません。それはせいぜい「情報抽出」です。または、まあ、ウェブスクレイピング。データベースと分析を含まない "データマイニング"としてすべてを覆し尽くしてはいけません。 –

+0

これはかなり異質な質問です。あなたの個人的なスキルが言語ごとに大きく異なるためです。 PythonベースのツールよりPythonのエキスパートが簡単になるだろう。あなたは、あなたが使いたい言語を指定することによって、あなた自身や他人に質問をより便利にすることができます。 – nrabinowitz

答えて

1

Pythonの経験があれば、BeautifulSoup、またはPhPQueryのようなものをお勧めします。

HTMLパーサーの使い方を理解したら、「パイプとフィルタ」プログラムを作成して数学を行い、それをcsvファイルにダンプすることができます。

Pythonソリューションの詳細についてはthis questionをご覧ください。

関連する問題