2016-04-18 5 views
-2

私は「ブログやフォーラムからのデータを分析する」プロジェクトについて取り組んでいるので、どのような種類のデータをブログやフォーラムから取り出すことができるのか、どうすればいいのですか?ウェブスクレイピングプロジェクトのブログやフォーラムからどのようなデータを抽出できますか?

+0

あなたの質問は興味深いかもしれませんが、詳細については非常に曖昧です。これは、特に1つのブログ、または一般的なすべてのブログに関するものですか?ツールセットや既存のプロジェクトをお探しですか? https://en.wikipedia.org/wiki/Web_scrapingで始まるかもしれませんか? – qux

+0

私は一般的なブログについて話しており、ツールセットを探しています、ありがとうございます –

+0

あなたは正反対の方向に問題を解決しています。何らかのデータを探すのではなく、何を学びたいのかを修正してください。その後、ブログから必要なデータを収集します。 – displayName

答えて

0

まず、どのプログラミング言語を使用するかを決めます。次に、ウェブスクレーパーの使用を検討する必要があります。

プログラミング言語によって異なるものがあります。 Javaの場合、例えばjsoupがあります。

どのデータを取得できるかについては、まずページのフォーマットを検討する必要があります。しかし、私は、収集をお勧めしますデータは、から構成されています。サイト上

ユーザ名 写真ユーザ名に関連する データ(、ポストの数を日付に参加し、プレミアムメンバーのステータス、写真、電話番号、Eメールアドレス、氏名、アドレスなど(該当する場合)) ブログ投稿のタイトル フォーラムで質問された質問 各質問の回答数は です。ブログの投稿には、の日付関連情報があります。