を使用して、外字(åäö)を含むデータフレームをencoding='utf-8'
にロードし、簡単なshow()を実行しようとしています。PySpark - UnicodeEncodeError: 'ascii'コーデックは文字をエンコードできません
>>> df.show()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/spark/python/pyspark/sql/dataframe.py", line 287, in show
print(self._jdf.showString(n, truncate))
UnicodeEncodeError: 'ascii' codec can't encode character u'\ufffd' in position 579: ordinal not in range(128)
私は、これはおそらく、Pythonの自体に関連して理解が、私はhere for exampleに記載されているトリックのいずれかがPySparkとshow()のコンテキストで適用することができる方法を理解することはできません - 機能。
'show'を使用している場合にのみ、あなたがこれを経験するのですか? – zero323
@ zero323他にも印刷関連のコマンドがありますか? – salient
まず、 'df.rdd.map(lambda x:x).count()'が成功すれば試してみることができます。 – zero323