2016-05-20 3 views
0

私はHortonworksに基づいて大きなデータ環境を構築したいと思いますが、私はすべてのすばらしいツールに慣れていません。多くのツールは非常によく似ていますが、悪魔は詳細です。あなたが私の思考を検証するのを手助けして、私がソリッドベースで始めることができるかどうか。私のhadoopアーキテクチャの改善提案

私はHadoopのに次のデータリソースを接続したい: - Twitterのストリーム - チャット - 私は、ストリームごとに、またはすべてで単一の単語を検索したいREST APIを使用して...

- ボード ストリーム。過去24時間以内にのみ、データセット全体を検索するオプションも必要です。 methodes(ユースケース)は次のようになります。

  • findwordintwitter
  • ...
  • findwordinchat
  • findwordintwitter24h
  • findwordinchat24h
  • ...
  • findwordinallstreams
  • findwordinallstreams24h

アイデアは、Flume、hbase、KNOXを使用することでした。しかしそれはとても簡単ですか? Flumeはデータをhbaseに入れ、RESTを通して自分の情報を取得できます。 KNOXは出入り口を確保します。しかし、私は多くを逃していると思います。私が言及したようにそれほど単純ではありません。

多分、私はUseCaseごとにKafkaのようなパイプライン、またはストリームごとに1つのhbaseインスタンスが必要かもしれません。私は多数のツールに襲われており、誰かが私に必要なツールのヒントを教えてくれることを願っています。説明付きの少しのアーキテクチャの概要はすばらしいだろう。だから私はそれを構築する手がかりを得る。

おかげで、N3

答えて

0

N3 @ - このすぐあなたのために答えるために誰かのために難しい質問です。私は、あなたが描いていることは確かにあなたが念頭に置いていることを達成する一つの方法だと思います。 Knox API Gatewayは、確かにクラスタ外からHTTPリソースにアクセスするための良い方法だと言えます。

あなたはまた、検討する必要があります:

  • Nifi - Twitterのストリームの取り込みのために、など
  • 嵐 - パイプライン
  • カフカと同様の取り込みのためには - インジェストのスケーラビリティのため
  • Solrのストリーム/ solrcloud - 検索機能用
+0

ありがとうございました。最後の日に、私はこのトピックが非常に複雑で答えにくいことがわかりました。しかし、ヒントはありがとう。 –

関連する問題