に特殊文字が削除されますが、レコードの数百万人:PartitionByは、私は以下のように3列(COL1文字列、col2にint型、col3という文字列)を持つデータフレーム(DF)を持っているPySpark
Test's 123 abcdefgh
Tes#t 456 mnopqrst
Test's 789 hdskfdss
私はpartitionByを実行しようとしていた場合PySparkを使用して以下のステートメントでデータを書き込むと、Col1の特殊文字が失われ、hdfsにディレクトリを作成するときにascii文字に置き換えられます。このデータフレームをhdfsに書き込む際に、特殊文字が保持され、ディレクトリパスに含まれるような方法はありますか?
df.write.partitionBy("col1","col2").text(hdfs_path)
私は混乱しており、詳細が必要な場合は教えてください。私はスパーク1.6.1を使用しています