2012-04-11 16 views
0

でデータを収集して処理しています。TwitterのストリーミングAPIと<a href="https://github.com/fennb/phirehose/wiki/Introduction" rel="nofollow">Phirehose</a> PHPドキュメントをすべて読んだら、PHP(Twitter Streaming API)

私は正しく理解していれば、収集プロセスをバックアップする処理段階でログジャムを防止することです。前に例を見たことがありますが、基本的には、コレクションの直後にTwitterデータベースが推奨するものに反しているように見えるMySQLデータベースに書き込みます。

私はいくつかのアドバイスや助けをしたいと思っていますが、これを処理する最良の方法は何ですか。すべてのデータをテキストファイルに直接書き込んでから別の関数で解析/処理することをお勧めしているようです。しかし、この方法では、私はそれがメモリ豚かもしれないと思います。

これはキャッチです。すべてがデーモン/バックグラウンドプロセスとして実行されます。だから、誰かがこのような問題、またはより具体的には、Twitterのphirehoseライブラリを解決することで任意の経験を持っていますか?ありがとう!

いくつかの注意: *接続はソケットを介して行われるので、ファイルは常に添付されると思いますか?他の人にフィードバックがあるかどうかわからない

答えて

1

phirehoseライブラリには、これを行う方法の例が付属しています。

これはつまり、非常にスケーラブルかつ高速であるフラット・ファイルを、使用しています参照してくださいあなたの平均的なハードディスクは40メガバイト/秒+で順次書き込むことができますし、 (つまり、データベースとは異なり、大きくなるにつれて減速しません)。

ストリームを消費するデータベース機能は必要ありません(つまり、次のつぶやきだけを必要とするだけで、「クエリ」は必要ありません)。

ファイルをかなり頻繁にローテーションすると、ほぼリアルタイムのパフォーマンスが得られます(必要な場合)。

関連する問題