3
私は、テーブルに格納された値からCSVファイルを作成しようとしています:スパークdf.write引用すべてのフィールドではなくNULL値
df.repartition(1)
.write.option("header",true)
.option("delimiter", ",")
.option("quoteAll", true)
.option("nullValue", "")
.csv(S3Destination)
:
| col1 | col2 | col3 |
| "one" | null | "one" |
| "two" | "two" | "two" |
hive > select * from table where col2 is null;
one null one
私は以下のコードを使用してCSVファイルを取得しています
CSVは私が取得:CSV期待
"col1","col2","col3"
"one","","one"
"two","two","two"
:NULL VALUE
FOR NO二重引用符で"col1","col2","col3"
"one",,"one"
"two","two","two"
データフレーム作成者がこれを行うオプションを持っているかどうかを知ることは助けになります。
'x',,z
はあなたの助けをありがとう生成します。それは有り難いです。 私はcsvを操作したくないので、データフレームライターが二重引用符をヌル値に追加しないオプションを持つ方法を探しています。 – dreddy申し訳ありませんAFAIK私はそのようなオプションが組み込まれていることに気づいていません。あなたが大丈夫であれば上記のアプローチは –
で動作するはずです。それは他のユーザーへのポインタでもあります。ありがとう! –