2017-05-24 8 views
0

データ形式のAvroスキーマをサポートするために、Hiveで利用できるSerdeについてはっきりしています。ハイブでavroを使うのが快適です。Presto、hive、impalaの3つのすべてがAvroデータ形式をサポートしていますか?

AvroSerDe

言うためには、私はプレストに対して、この問題を発見しました。 https://github.com/prestodb/presto/issues/5009

高速実行サイクルのコンポーネントを選択する必要があります。 Prestoとimpalaは実行サイクルを大幅に短縮します。 だから誰でも私は別のデータ形式でより良いだろうことを明確にさせてください。 主に、Prestoでavroサポートを探しています。

しかし、HDFSに保存されたデータフォーマットを以下の点を考慮することができます:

  1. アブロ形式
  2. 寄せ木形式
  3. オーク形式異なる上、高いパフォーマンスで使用するのが最適です

データ形式。 ??提案してください。

+0

Impalaは、主にHiveに存在するテーブルを照会するために使用されるクエリエンジンです。 – philantrovert

+0

私の質問は、クエリエンジンとテクノロジスタックを選択するためのより良い方法についてです。私はimpalaがclouderaからのみ提供されるクエリエンジンであることを知っています。しかし、私は比較研究を探しています。 – shashankS

+0

例えば、hiveQLはテーブルからselect count(*)のために23秒かかりますが、presto SQLは同じクラスタサイズに対して2秒かかります。したがって、impalaのパフォーマンスはどのようなもので、同じデータセットの異なるデータフォーマットのパフォーマンスはどうですか? – shashankS

答えて

0
  • インパラはアブロデータを読み取ることができますが、それを書き込むことはできません。 Impalaがサポートするファイル形式については、this documentaion pageを参照してください。

  • ハイブsupports Avroファイルの読み書きです。

  • PrestoのハイブコネクタもAvroに対応しています。 this documentaion pageを指摘してくれたDavid Phillipsに感謝します。

は、パフォーマンスに関するインターネット上のさまざまなベンチマークがありますが、私は結果が大きくベンチマーク正確なユースケースに依存して特定のものにリンクしたくありません。

+1

PrestoはAvroを今すぐサポートしています:https://prestodb.io/docs/current/connector/hive .html#supported-file-types –

+1

ありがとうDavid、私は私の答えを更新しました。 – Zoltan

+0

ありがとうzoltanとdavid、しかし、私はavroサポートを試みましたが、avstデータのスキーマはPrestoで読み込めませんでした。 – shashankS