2011-07-07 16 views

答えて

16

これをチェックしてください。articleドレメルは、ハイブの未来が何をすべきか(そしてそうなるのか)です。

MapReduceとその上にあるPig、Hiveなどの主要な問題は、ジョブの実行と回答の間に固有の遅延があることです。ドレメルが...これ(Googleがその論文で、2010年に出てきた)

を全く新しいアプローチを使用しています...

...アグリゲータの木に基づく新規クエリ実行エンジンを使用しています。 ..実行するほぼリアルタイム対話adhoc両方のMapReduceでは実行できません。そして、ブタとハイブはリアルタイムではありません

あなたはこれから出てくる目を離さないでください。projectsそれは私にとってもかなり新しいことです...他の専門家のコメントも大歓迎です!

編集:ドレメルはHIVE(私は前に述べたようにし、MapReduceのではない)の将来がどうあるべきかです。 HiveはMapReduceジョブを実行するためのSQLのようなインタフェースを提供します。 Hiveはレイテンシが非常に高いため、アドホックデータ分析では実用的ではありません。 Dremelは、MapReduceとは異なる技術を使用して、データに非常に高速なSQLインタフェースを提供します。

+0

でも、Stormソフトウェアはどうですか? – kirugan

+4

上記の詳細を追加しますか?GoogleのDremelのオープンソースの実装であるApache Drillを見てください。 –

3

MapReduceは、問題を分割して配信し、結果を結合するための抽象アルゴリズムです。 Dremelは、データセットのクエリと分析のための特定のツールであるようです。

34

DremelおよびMapReduceは、直接比較可能ではなく、むしろ相補的な技術です。

MapReduceは、データを分析するために特別に設計されたものではなく、ノードの集合が大きなデータセットの分散計算問題に取り組むことを可能にするソフトウェアフレームワークです。

Dremelは、大量の構造化されたデータセット(ログファイルやイベントファイルなど)のクエリをすばやく実行できるように設計されたデータ分析ツールです。これは、SQLのような構文をサポートしていますが、テーブルの追加は別として、読み取り専用です。更新や作成関数をサポートしておらず、テーブルインデックスも機能していません。データは「円柱」形式で整理され、非常に高速なクエリ速度に貢献します。 GoogleのBigQuery製品は、RESTful APIを介してアクセス可能なDremelの実装です。

"Hive"データウェアハウスソフトウェアと連携するHadoop(MapReduceのオープンソース実装)は、SQLスタイルの構文を使用して大規模なデータセットのデータ分析も可能にします。基本的にクエリをMapReduce関数に変換します。 Hiveは、ColumIO形式を使用するのとは対照的に、テーブルのインデックス付けなどのテクニックを使用してクエリを素早く作成しようとします。

+1

btw、入力は読み取り専用ですが、将来の再利用のためにDremelクエリの出力を実現できます –

関連する問題