2017-10-21 5 views
0

AWS EMR master nodeに次のコードスニペットがあり、csvファイルを寄せ木ファイルに変換しています。pysparkを使用して寄木張りするcsvは配布されていますか?

%pyspark 


csv_path = "s3://<bucket>/file.csv" 
p_path = "s3://<bucket>/file.parquet" 

df = sqlContext.read.csv(csv_path, header=True, inferSchema=True) 
df.write.parquet(p_path, mode='overwrite') 

ノードをさらにリクエストすると、この操作は高速になりますか?言い換えれば、スパーククラスターに分布する寄木細工への変換である。私はまだ話すことができませんし、もう少し詳しく知ることなく、より多くのノードでお金を燃やしたくありません。

答えて

1

はい、配布されています。

操作は高速ですか?それは多くの要素に依存しますが、最善のケースでは、コードがあなたのもの(1段階ジョブ)と同等である限り、ノードの数に関して線形に拡大する必要があります。

スキーマの推論を無効にし、明示的なスキーマを提供するためのもう1つの改善点。

関連する問題