データ形式のAvroスキーマをサポートするために、Hiveで利用できるSerdeについてはっきりしています。ハイブでavroを使うのが快適です。Presto、hive、impalaの3つのすべてがAvroデータ形式をサポートしていますか?
言うためには、私はプレストに対して、この問題を発見しました。 https://github.com/prestodb/presto/issues/5009
高速実行サイクルのコンポーネントを選択する必要があります。 Prestoとimpalaは実行サイクルを大幅に短縮します。 だから誰でも私は別のデータ形式でより良いだろうことを明確にさせてください。 主に、Prestoでavroサポートを探しています。
しかし、HDFSに保存されたデータフォーマットを以下の点を考慮することができます:
- アブロ形式
- 寄せ木形式
- オーク形式異なる上、高いパフォーマンスで使用するのが最適です
データ形式。 ??提案してください。
Impalaは、主にHiveに存在するテーブルを照会するために使用されるクエリエンジンです。 – philantrovert
私の質問は、クエリエンジンとテクノロジスタックを選択するためのより良い方法についてです。私はimpalaがclouderaからのみ提供されるクエリエンジンであることを知っています。しかし、私は比較研究を探しています。 – shashankS
例えば、hiveQLはテーブルからselect count(*)のために23秒かかりますが、presto SQLは同じクラスタサイズに対して2秒かかります。したがって、impalaのパフォーマンスはどのようなもので、同じデータセットの異なるデータフォーマットのパフォーマンスはどうですか? – shashankS