pysparkを使用して寄木張りするcsvは配布されていますか？

AWS EMR master nodeに次のコードスニペットがあり、csvファイルを寄せ木ファイルに変換しています。pysparkを使用して寄木張りするcsvは配布されていますか？

%pyspark 


csv_path = "s3://<bucket>/file.csv" 
p_path = "s3://<bucket>/file.parquet" 

df = sqlContext.read.csv(csv_path, header=True, inferSchema=True) 
df.write.parquet(p_path, mode='overwrite')

ノードをさらにリクエストすると、この操作は高速になりますか？言い換えれば、スパーククラスターに分布する寄木細工への変換である。私はまだ話すことができませんし、もう少し詳しく知ることなく、より多くのノードでお金を燃やしたくありません。

出典

2017-10-21 jwillis0720

はい、配布されています。

操作は高速ですか？それは多くの要素に依存しますが、最善のケースでは、コードがあなたのもの（1段階ジョブ）と同等である限り、ノードの数に関して線形に拡大する必要があります。

スキーマの推論を無効にし、明示的なスキーマを提供するためのもう1つの改善点。

出典

2017-10-21 08:19:37 user8810197

pysparkを使用して寄木張りするcsvは配布されていますか？

答えて

関連する問題