私はHortonworksに基づいて大きなデータ環境を構築したいと思いますが、私はすべてのすばらしいツールに慣れていません。多くのツールは非常によく似ていますが、悪魔は詳細です。あなたが私の思考を検証するのを手助けして、私がソリッドベースで始めることができるかどうか。私のhadoopアーキテクチャの改善提案
私はHadoopのに次のデータリソースを接続したい: - Twitterのストリーム - チャット - 私は、ストリームごとに、またはすべてで単一の単語を検索したいREST APIを使用して...
- ボード ストリーム。過去24時間以内にのみ、データセット全体を検索するオプションも必要です。 methodes(ユースケース)は次のようになります。
- findwordintwitter ...
- findwordinchat
- findwordintwitter24h
- findwordinchat24h
- ...
- findwordinallstreams
- findwordinallstreams24h
アイデアは、Flume、hbase、KNOXを使用することでした。しかしそれはとても簡単ですか? Flumeはデータをhbaseに入れ、RESTを通して自分の情報を取得できます。 KNOXは出入り口を確保します。しかし、私は多くを逃していると思います。私が言及したようにそれほど単純ではありません。
多分、私はUseCaseごとにKafkaのようなパイプライン、またはストリームごとに1つのhbaseインスタンスが必要かもしれません。私は多数のツールに襲われており、誰かが私に必要なツールのヒントを教えてくれることを願っています。説明付きの少しのアーキテクチャの概要はすばらしいだろう。だから私はそれを構築する手がかりを得る。
おかげで、N3
ありがとうございました。最後の日に、私はこのトピックが非常に複雑で答えにくいことがわかりました。しかし、ヒントはありがとう。 –