2011-09-25 7 views
5

私は、膨大な量のTwitterデータを掻き集める必要があるpythonでプロジェクトを構築しています。 100万人のユーザーとそのすべてのつぶやきのようなものは削り取る必要があります。つぶやきの巨大な量を掻く方法

私はTweepyとTwythonを使用していましたが、Twitterの制限が非常に速かったです。

センチメント分析企業などは、どのようにデータを取得しますか?どのようにそれらのつぶやきを得るのですか?あなたはこれをどこか購入したり、異なるプロキシーや何かを繰り返すものを作りますか?

例えば、TrstランクのInfochimpsのような企業は、どのようにデータを取得しますか? * http://www.infochimps.com/datasets/twitter-census-trst-rank

+1

限界に達するには時間がかかり過ぎると、数日間に作業を分散し、データベースをよりゆっくりと構築する必要があります。私はそれが企業がこれをやる方法だと思う。 – heltonbiker

答えて

7

あなたが特定のユーザーからの最新ツイートをしたい場合、TwitterはStreaming APIを提供しています。

ストリーミングAPIは、Twitter Firehoseのリアルタイムサンプルです。このAPIは、データ集約型の開発者向けです。 データマイニング製品を作成する場合、または分析リサーチに興味がある場合は、Streaming APIが最も適しています。

あなたは古い情報にアクセスしようとしている場合は、その厳しい要求の制限付きのREST APIは、行くための唯一の方法です。

7

あなたのやりたいことがうまくいくかどうかわかりませんが、最近Tweets2011データセットがリリースされました。説明から

:TREC 2011マイクロブログトラックの一環として

、Twitterは2011年コーパスができるように設計された1月23日と 2月8日の間でサンプリングされた約1600万つぶやき、の識別子 を提供しました再使用可能、 twittersphereの代表サンプル - 重要なものと スパムツイートが含まれています。

+0

ありがとう、それは私が見て興味深いものです。しかし、私は特定のユーザーのデータを何とか得ることができるようにしたいと考えています。また、毎日約100万人のユーザーから最新のつぶやきを削り取ることができます。それについての考えは? – Javaaaa

+0

あなたはそうすることはできません。ツイッターAPIのレート制限は、あなたをあまりにも絞り込みます。 – jterrace

関連する問題