2017-08-24 16 views
1

データフレームをs3に保存しますが、ファイルをs3に保存すると、ファイルを保存する${folder_name}の空のファイルが作成されます。Pyspark S3にデータフレームを保存

構文のデータフレームを保存するには: -

f.write.parquet("s3n://bucket-name/shri/test") 

これは、テスト・フォルダにファイルが保存されますが、それはshri$testを作成します。

余分なフォルダを作成せずに保存できる方法はありますか?

+0

、あなたが応答をスパークの分散性 –

答えて

0

私が知る限り、実際の寄木細工のファイルの名前を制御する方法はありません。パーセルにデータフレームを書き込むときは、ディレクトリ名を指定し、sparkはそのディレクトリの下に適切なパーケットファイルを作成します。

2

私は以下のコードを使用してそれを行うことができました。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite") 
+0

おかげウスマンの目的に反し1つのエグゼキュータと1つの減速機を、使用する必要がある、なぜなら、インポートする必要のある任意のモジュールがあります私が同じことをしようとしたときに、エラーが発生しました。トレースバック(最新の最後の呼び出し): ファイル ""、行1、 名前エラー:上書きは定義されていません – Shrikant

+1

引用符= '上書き' –

関連する問題