2017-02-15 16 views
1

spark sqlにパーキング形式で格納されたデータを再帰的にサブディレクトリから取得させるにはどうすればよいですか? Hiveでは、私はHive設定をほとんど設定しないことでこれを達成できました。 Spark SQLを使用してHiveパーティションのサブディレクトリにあるデータを照会

set hive.input.dir.recursive=true; 
set hive.mapred.supports.subdirectories=true; 
set hive.supports.subdirectories=true; 
set mapred.input.dir.recursive=true; 

私はスパークSQLクエリを介してこれらのコンフィグを設定しようとしましたが、私は私に期待される結果を得るハイブに比べて0レコードのすべての時間を取得します。また、これらのconfをhive-site.xmlファイルに入れましたが、何も変更されませんでした。この問題をどうやって処理できますか?

スパークバージョン:2.1.0 私はちなみにEMR-5.3.1

にハイブ2.1.1を使用し寄木細工のファイルを使用している間、それが正常に動作しますJSONを持つ一方で、この問題いずれかが表示されます。

+0

私は自分自身でこの質問に対する答えを見つけようとしています。 – IceMan

+0

@IceMan私は今答えを投稿しました。 –

答えて

1

この問題の解決策の1つは、ファイルを再帰的に読み取ることができるようにするハイブコンテキストを使用してHive Parquetリーダーにスパークを強制することです。

関連する問題