2012-09-24 14 views
16

この質問は以前に尋ねられたかもしれませんが、私はこれらの技術が成熟していることを考えれば、今日再びそれを検討することは良いと思います。我々はflume、kafka、scribeなどの1つを使って、後で分析を行うためにストリーミングのfacebookとtwitterのプロフィール情報をhbaseに保存することを考えています。我々は目的のために水路を検討しているが、私は情報に基づいた決定を下すために他の技術と協力していない。光を当てることができる人なら誰でも素晴らしいだろう!どうもありがとう。flume vs kafka vs他

+0

あなたが水路について話すとき、おそらくあなたは水路-ngのを参照していますか?古い水路は水路とは非常に異なるからです。 – Shengjie

答えて

18

Mediawiki(Wikipedia)はこれを通って、彼らが選んだ(Kafka)vs Scribe、Flumeなどに到着したという素晴らしい記事を公開しました。

http://www.mediawiki.org/wiki/Analytics/Kraken/Request_Logging

新しいリンク:
https://wikitech.wikimedia.org/wiki/Analytics/Kraken/Logging_Solutions_Recommendation

後世のための要約:

「私たちの勧告は、Apacheカフカ、スループットのために設計された分散型のパブ-subメッセージングシステムである私たちが評価しました。分散ログ収集、CEP /ストリーム処理、およびリアルタイムメッセージングシステムの分野から引き出された数多くの[1]最高のシステムです。これらのシステムは驚くべきことですが同様の特徴を持ち、それらは実装が大きく異なり、それぞれが特定の作業プロファイルに特化しています(より詳細な技術的議論は付録として利用可能です)。

"カフカはスループットに特化されており、アーキテクチャのすべての層に明示的に配布されているために際立っています。興味深いことに、パフォーマンスと引き換えに保証を緩和する賢明なトレードオフを提供するにはリソースの節約[

"さらに、Kafkaは、オペレーションリーダーにとって特に興味深い特典をいくつか持っています。これは、FacebookやGoogleがデザインするシステムの重要な機能ではありません。これはScalaで書かれていますが、ネイティブのC++プロデューサライブラリが同梱されており、キャッシュサーバ用のモジュールに組み込むことができ、それらのサーバ上でJVMを実行する必要はありません。第2に、プロデューサは、ネットワークトラフィックを最適化するためのバッチ要求に構成できますが、追加のメンテナンスが必要な永続的なローカルログは作成しないでください。 KafkaのI/Oとメモリの使用量は、JVMではなくOSに委ねられています[3]。

"KafkaはLinkedInによって作成され、現在はApacheプロジェクトです.LinkedInの生産では、約10,000のプロデューサがデータセンターあたり8台のKafkaサーバーで処理されます。これらのクラスタはストリームを単一の分析データセンターに統合します。

"これらの機能は、私たちの意図する用途に非常に適しています。 「トピック」カテゴリによるシャーディングやルーティングなど、私たちが使用するつもりでないものであっても、興味深いものであり、将来的には私たちの目標を拡大するうえで役立つかもしれません。

「この文書の残りの部分は...詳細にこれらのトピックにダイブ」

+0

リンクが壊れているようです。 – tehAon