2011-01-06 4 views
2

最近、私はHbaseとHiveを統合することに関して著者が言及したブログに出くわしました。可能であれば、パフォーマンスとスケーラビリティの両方で両方を使用する利点がありますか。私が間違っていたら、どうか私を正してください。HbaseとHiveを統合する利点は何ですか

答えて

2

ちょっとセットアップするのは簡単かもしれませんが、CDH3の最終版には組み立てが含まれることがあります。

利点:hbaseでのハイブクエリ。ジョイントと、HBaseデータの集約と簡単な操作を簡単に行う方法を考えてみましょう。

Hiveを使用し、HBaseを気にしないのはなぜですか? HBaseは、オンラインでデータを保持するスケーラブルなストレージインフラストラクチャを提供します。 StumbleUponはライブウェブサイトでHBaseを使用しています。 Hiveはリアルタイムのクエリエンジンではないため、データストアを同様の目的で使用することはできませんでした。 HBaseのHiveは、あなたに両方の世界の恩恵をもたらします。

0

現在、HBaseとHiveの間でデータを読み込むことができるパッチがあります。あなたはここでそれを見つけることができます:

http://wiki.apache.org/hadoop/Hive/HBaseIntegration

実装のオーバーヘッドはかなり高いように見えます。

HBaseテーブルでスキャンを実行し、外部ファイルに保存してからデータ操作用にHiveにインポートする方が簡単な場合があります。 (これはかなり面倒ですが、もしあなたがそれを定期的に行うのであればスクリプト化することができます。)これは現在私が現在取り組んでいる解決策です。私はそれがどのように進むのかを知らせます。

HBase over Hiveを選択する理由は、実際には入れ替えることはできません。 HBaseは、Hadoopの上に構築された高度にスケーラブルなデータストアを意味し、データ解析をほとんどサポートしていません。一方、Hiveは本番環境でデータを格納するために使用されるのではなく、大量のデータに対して特定のクエリを実行するのが非常に簡単です。

関連する問題