データフレームからパーケット作成の関数を作成するにはどうすればいいですか?データフレームからパーケット作成のための関数を作成
ファイルの作成を寄木細工するデータフレームのための構文のようなものである - (pyspark)
df.write.mode( '上書き')寄木細工( "file_name.parquet")
関数を作成するには。このために、私はこのようにしようとしています:
def parquet_create(df_name,file_name):
df_name.write.mode('overwrite').parquet(file_name+".parquet")
return
しかし、私はparquet_create( "ABC"、 "EEE")を実行したとき...それは
AttributeError: 'str' object has no attribute 'write'
012で失敗します
私は空のデータフレームを上記に初期化しました。これを達成するためのクリーンな方法はありますか?
def parquet_create(df_name,file_name):
df_name = sqlContext.read.json("my_empty_file.parquet")
df_name = df_name.write.mode('overwrite').parquet(file_name+".parquet")
return
データフレームが機能化されていない場合はどうすればいいですか?
オブジェクト自体ではなく、データフレームの名前を渡しているようですね – bendl
そうです、私は寄木細工を作成したいときはいつも、データフレームの名前を渡して上記の関数を使用したい – Viv
既にデータフレーム存在するか、後で作成するか?空のページ区切りファイルを作成する必要はありません。既にデータフレームがいっぱいであれば、データフレームオブジェクト自体を渡すだけの理由はありません – bendl