0
AWS EMR master nodeに次のコードスニペットがあり、csvファイルを寄せ木ファイルに変換しています。pysparkを使用して寄木張りするcsvは配布されていますか?
%pyspark
csv_path = "s3://<bucket>/file.csv"
p_path = "s3://<bucket>/file.parquet"
df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)
df.write.parquet(p_path, mode='overwrite')
ノードをさらにリクエストすると、この操作は高速になりますか?言い換えれば、スパーククラスターに分布する寄木細工への変換である。私はまだ話すことができませんし、もう少し詳しく知ることなく、より多くのノードでお金を燃やしたくありません。