2011-12-14 5 views
0

twitter.comなどのデータサービスからソーシャルデータを収集する場合、データ戦略はどのようなものでしょうか?ソーシャルデータ収集の戦略は?

ここに私が考えることができる(間違っている可能性があります)。

Twitter.comと完全な消防ホースアクセスを検討してください、何を話していますか?

  1. 1日あたり200万件のツイート - 平均2314回/秒= 5.6MB/s。
  2. 現在のレコードTPS(ツイート/秒):7000.各ツイートは約2.5KB = 7000 * 2.5KB = 17MB /秒です。

このデータを(一時的に)読み込んで保存するにはどうすればよいですか?

  • 高速インターネット。少なくとも30MB /秒。データセンターでは、こうしたインターネット速度にアクセスできますか? 1台の専用マシンが直接接続されていますか?
  • 信頼性:このマシンがダウンするとどうなりますか? :-( - 複数のマシン設定が必要な場合がありますが、twitterストリームをリアルタイムで別々の接続で分割することはできませんか?
  • スケーラビリティ:TwitterのTPSは近い将来に撃ちますか?近い将来、パイプ
  • 高速化のハードディスク:?64メガバイトのキャッシュを持つWD /シーゲイトサーバクラスの7200RPMは128メガバイト/秒に 信頼を行うことができます?このハードドライブに障害が発生した場合にどのようにディスクの束が何をすべきどうなりますか?しかし、どのような設定ですか?
  • スケーラビリティ:これは、しかし、200万のつぶやきをアーカイブする必要がある場合は、おそらくよりスケーラブルなソリューションが必要になるでしょう。 Hadoop HDFSは良いアイデアですか?
  • セキュリティ:企業はこのマシンをDMZの外に置くことを望みますか?だから、このサーバクラスのマシンに一時的にデータを保存して(例えば5分)、それをHDFSにプルするのは良い考えですか?

私はあなたの考えを知らせてください。完全なtwitter firehoseがかなり非現実的なシナリオだと思うなら、束の間のキーワードにマッチするフィルターフィードを探していると仮定してください(しかし、私はつぶやきを見逃すことはできません)。 このようなシステムのアーキテクチャーについてどう思いますか?

+1

偉大な、要求を閉じるが、理由はありません!どうぞこの質問に間違っているの? – Jay

+1

一部の人があまりにも一般的すぎると思うかもしれない若干の可能性があります。ちょっと考えました。 – home

+1

この質問はあまりにも広すぎます。あなたはここでたくさんの質問をしており、完全な答えはおそらく小さな論文になるでしょう。 –

答えて

3

DataSiftのアーキテクチャでthis articleを読むことができます。彼らはちょうどそれを行う

+0

私はHadoopであなたの答えを本当に好きになっています(より質の高いポスターが必要です)。良い仕事を続けてください。 –

+0

優秀 - これは私に良いアイデア(具体的ではない)を与えるが、物事の規模。このため、ありがとうございます。私はいつもgnip blogを探していましたが、datasiftブログを調べるのは気にしませんでした。 – Jay