フォルダ構造を維持したまま、Sparkでファイルを変換する方法

-1

Hiveパーティションパターン（s3://csvfiles/Y=2017/M=10/D=12/H=23/M=12/...）で、フォルダ内にcsvファイルがまとめられています。フォルダ構造を維持したまま、Sparkでファイルを変換する方法

したがって、「時間」フォルダには、csv形式のファイルがほとんどありません。特定の時間のすべてのファイルをORC形式の1つのファイルに結合し、別のルートフォルダに書き込みますが、「日付」パターンは保持します。

s3://orcfilesY=2017/M=10/D=12/H=23/singlefile.orc

それはスパークでそれを行うことは可能です：ので、結果はそのようなものでしょうか？

おかげ

出典

2017-10-26 Tal Ben Shalom

repartitionとpartitionBy：

val n: Int 

df 
    .partitionBy(n, $"Y", $"M", $"D", $"H") 
    .write.partitionBy("Y", "M", "D", "H").orc(...)

出典

2017-10-26 15:14:21 user8838682

私の知る限り、これはソースフォルダ内の私は既に持っているパーティションを無視します - それは、すべてのデータを読み込みますし、それを再分割します。寄木細工のファイルの場合、 "basepath"を定義すると、 "partition discovery"（https://spark.apache.org/docs/1.6.0/sql-programming-guide.html#partition-discovery）が実行されます。）。これを行う方法 –

AFAIKこれは、ソースフォルダにすでにあるパーティションを無視します。すべてのデータが読み込まれ、パーティションが再分割されます。寄木細工のファイルの場合、 "basepath"を定義すると、 "partition discovery" [https://spark.apache.org/docs/1.6.0/sql-programming-guide.html#partition-discovery ]。 csvファイルでも対応できますか？私のソースでは、データは分単位でも区切られていますが、宛先ではY/M/D/Hだけでパーティションにしたいと考えています。鍵の一部で再分割すると、すべてのデータが再シャッフルされますか？ –

フォルダ構造を維持したまま、Sparkでファイルを変換する方法

答えて

関連する問題