ハイブqlジョブの出力として複数の小さなparquet
ファイルが生成されました。出力ファイルを1つの寄木張りファイルにマージしますか?largeコマンドまたはhdfsコマンドを使用して、複数のパーケットファイルを1つのパーケットファイルにマージする方法はありますか?
hdfs or linux commands
を使用して行う最良の方法は何ですか?
私たちはcat
コマンドを使ってテキストファイルをマージしましたが、これは寄木張りにも使えますか? repartition
またはcoalesc
メソッドをspark
に使用して出力ファイルを書き込むときに、HiveQL
を使用してそれを行うことはできますか?
どこでも瓶をダウンロードできますか?これを構築するのは苦痛です。 – samthebest