2016-06-20 2 views
-2

問題を扱っています。私はデータ化を&予測インフラストラクチャにしたいと考えています。大きなデータアーキテクチャー:Elivesearch-Kibana with HiveまたはHadoop

私はHdfs(ES-Hadoop付き)、& Hdfs上のSpark(Python)をモデル化すると考えました。

私の質問は、HdfsのデータをESで正しくインデックスできますか、Elasticsearch & Hdfsの間でHiveまたはSparkを使うべきですか?

どのアーキテクチャが最適な方法かわかりません。

答えて

0

ES-Hadoopは、Elasticsearchで直接HDFSのデータにインデックスを付けることができます。 HDFSからESへの操作中にデータを操作する必要がある場合(例えば、ルックアップを実行したり、いくつかの基準に基づいてデータをフィルタリングする場合)、StreamSets Data Collectorのようなツールを使用できます。詳細はthe blog postを参照してください。

詳細情報 - 私はStreamSetsのコミュニティチャンピオンです。

+0

私の質問が明白であったかどうかわかりません...つまり、HDFSのデータを直接索引付けするのは良いですか? –

0

あなたの質問がハイブとハープのインデックス作成でのパフォーマンスの違いに関するものであれば....違いはありません。ハイブの場合でも、データはHDFSに保存され、ハイブの外部テーブルからアクセスできます。インデックスを使用する方法によって、あなたの選択が決まります。ハイブはデータの構造を提供します。データを操作するための多くの組み込み関数を適用することができます...

+0

ハイブはHDFSに格納されたデータを複製しますか、またはJusteはHDFS上に構造を提供しますか?私はファイルシステムとHiveの両方のデータを意味しますか? –

+0

外部テーブルの場合... hdfsにデータが存在し、ハイブウェアハウスに複製されていない場合... –

関連する問題