-1
これらのファイルをS3からRedshiftにコピーしようとしていますが、それらはすべてRowの形式です(column1 = value、column2 = value、...)。 )、明らかに問題を引き起こします。通常のCSVでデータフレームを書き出すにはどうすればよいですか?Sparkが `saveAsTextFile`をRow()形式で書き出します
私はこのようにそれを呼んでいる:私もspark-csv
モジュールで書き出す試してみた、そしてそれは私がやった計算のいずれかを無視し、単にオリジナルの寄木細工をフォーマットするようにそれはそう
# final_data.rdd.saveAsTextFile(
# path=r's3n://inst-analytics-staging-us-standard/spark/output',
# compressionCodecClass='org.apache.hadoop.io.compress.GzipCodec'
#)
csvとしてファイルを作成し、それをダンプします。
私はこのようなことを呼んでいる:
df.write.format('com.databricks.spark.csv').save('results')
spark-csvアプローチが有効です。おそらく 'final_data' DataFrameで' write'を呼び出すべきでしょうか? –
Derpはまったく問題でしたが、私はそれを考え出しました;)それを指摘してくれてありがとう!あなたが答えを出すなら、私はあなたに答えのクレジットを与えます。 – flybonzai