2016-05-11 10 views
0

ORCファイルフォーマットをImpalaで使用できますか?また、Impalaのハイブストアに格納されているORCテーブルにアクセスする方法もあります。 は、ドキュメントのリンクの下に見つかり、それがインパラをサポートしていませんORCのいずれかの制限fileformatsリストまたは言及が含まれていません: http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.htmlORCファイルフォーマットとImpala

答えて

2

ORCはインパラではサポートされていません。むしろApache Parquetは最高のパフォーマンスを得るための推奨フォーマットです。

0

インパラは、ORCファイル形式を読み取ることができません。可能であれば、ORCファイルをHiveでPARQUETに移行することをお勧めします。メリットは、マップ・リダクション・タスクを設定する時間を1つだけ支払っていることです。

あなたのORCテーブルがnameoforctableあり、非常に基本的なクエリがどのように見える場合:ORCはハイブにACID機能をサポートする唯一のフォーマットであり、いくつかのベンチマークで優れたクエリパフォーマンスと圧縮率を実証していても

CREATE TABLE nameoforctable_parquet 
LIKE nameoforctable 
STORED AS PARQUET 
LOCATION '/your/hdfs/location'; 

INSERT INTO nameoforctable_parquet 
SELECT * FROM nameoforctable 
0

インパラはORCファイル形式をサポートしていません。なぜなら、それは主要な競合相手の1つであるHortonworksによって作成されたからです。逆にHortonworks Data Platform(HDP)のHiveバージョンは、同じ理由でParquetをサポートしていません。

+0

_ "HortonworksのHiveバージョン...寄木張りをサポートしていません" _ >>何ですか?あなたはその主張を証明できますか? –

+0

HDPサポートエンジニアとの議論から、HDPは正式にParquetをプラットフォームでサポートしていません。つまり、Parquetを使用することはできますが、何か問題がある場合は自分で解決します。 –

+1

これはちょっと違います:Impala **はImpala固有のC++ライブラリを使用しているため、Apache Parquetという1つのカラムフォーマットしか使用できません。 Apache Hiveは、標準のHive "SerDe" Javaライブラリを提供する多くのフォーマットで動作しますが、HortonWorks **の有料サポート**は、Apache ORC *(Apacheの寄木細工もApache CarbonDataもありません)という1つの円柱フォーマットしかカバーしません。それは理にかなっている。 –

関連する問題