つぶやきの巨大な量を掻く方法

私は、膨大な量のTwitterデータを掻き集める必要があるpythonでプロジェクトを構築しています。 100万人のユーザーとそのすべてのつぶやきのようなものは削り取る必要があります。つぶやきの巨大な量を掻く方法

私はTweepyとTwythonを使用していましたが、Twitterの制限が非常に速かったです。

センチメント分析企業などは、どのようにデータを取得しますか？どのようにそれらのつぶやきを得るのですか？あなたはこれをどこか購入したり、異なるプロキシーや何かを繰り返すものを作りますか？

例えば、TrstランクのInfochimpsのような企業は、どのようにデータを取得しますか？ * http://www.infochimps.com/datasets/twitter-census-trst-rank

2011-09-25 Javaaaa

限界に達するには時間がかかり過ぎると、数日間に作業を分散し、データベースをよりゆっくりと構築する必要があります。私はそれが企業がこれをやる方法だと思う。 – heltonbiker

あなたが特定のユーザーからの最新ツイートをしたい場合、TwitterはStreaming APIを提供しています。

ストリーミングAPIは、Twitter Firehoseのリアルタイムサンプルです。このAPIは、データ集約型の開発者向けです。 データマイニング製品を作成する場合、または分析リサーチに興味がある場合は、Streaming APIが最も適しています。

あなたは古い情報にアクセスしようとしている場合は、その厳しい要求の制限付きのREST APIは、行くための唯一の方法です。

2011-09-26 06:35:58

あなたのやりたいことがうまくいくかどうかわかりませんが、最近Tweets2011データセットがリリースされました。説明から

：TREC 2011マイクロブログトラックの一環として

、Twitterは2011年コーパスができるように設計された1月23日と 2月8日の間でサンプリングされた約1600万つぶやき、の識別子を提供しました再使用可能、 twittersphereの代表サンプル - 重要なものとスパムツイートが含まれています。

2011-09-25 18:41:45 jterrace

ありがとう、それは私が見て興味深いものです。しかし、私は特定のユーザーのデータを何とか得ることができるようにしたいと考えています。また、毎日約100万人のユーザーから最新のつぶやきを削り取ることができます。それについての考えは？ – Javaaaa

あなたはそうすることはできません。ツイッターAPIのレート制限は、あなたをあまりにも絞り込みます。 – jterrace

答えて