Pyspark S3にデータフレームを保存

データフレームをs3に保存しますが、ファイルをs3に保存すると、ファイルを保存する${folder_name}の空のファイルが作成されます。Pyspark S3にデータフレームを保存

構文のデータフレームを保存するには： -

f.write.parquet("s3n://bucket-name/shri/test")

これは、テスト・フォルダにファイルが保存されますが、それはshri下$testを作成します。

余分なフォルダを作成せずに保存できる方法はありますか？

出典

2017-08-24 Shrikant

、あなたが応答をスパークの分散性 –

私が知る限り、実際の寄木細工のファイルの名前を制御する方法はありません。パーセルにデータフレームを書き込むときは、ディレクトリ名を指定し、sparkはそのディレクトリの下に適切なパーケットファイルを作成します。

出典

2017-08-24 19:40:22

私は以下のコードを使用してそれを行うことができました。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")

出典

2017-08-25 02:54:54

おかげウスマンの目的に反し1つのエグゼキュータと1つの減速機を、使用する必要がある、なぜなら、インポートする必要のある任意のモジュールがあります私が同じことをしようとしたときに、エラーが発生しました。トレースバック（最新の最後の呼び出し）：ファイル ""、行1、名前エラー：上書きは定義されていません – Shrikant

引用符= '上書き' –

私はスタックで同様のポストを見つけました。ここにリンクがあります。それは質問への答えを持っています。一つのファイルを書き込むためには

Junk Spark output file on S3 with dollar signs

出典

2017-08-28 18:17:21 Shrikant

Pyspark S3にデータフレームを保存

答えて

関連する問題