pandasのread_csv(完全にパンダタイプの推論に依存します)で.csvを読み込む簡単なコードを書きました。arrow_table = pa.Table.from_pandas(df)... PythonオブジェクトをString/UTF8に変換中にエラーが発生しました
arrow_table = pa.Table.from_pandas(df)"): Error converting to Python objects to String/UTF8
この問題のトラブルシューティングを行うためにインターネット上で役立つものは見つかりませんでした。 pyarrow.from_pandas(type = ...)で 'type'パラメータを使用するにはどうすればいいですか?
ありがとうございます。
$ python pqwrite2.py
pyarrow version = 0.7.1
from_size = 298877474 bytes
sys:1: DtypeWarning: Columns (23,28) have mixed types. Specify dtype option on import or set low_memory=False.
id int64
...
pid object
mnemonic object
supplier_key float64
generic object
trade_name object
description object
strength object
form object
ndc object
note object
pack_size float64
pack_size_text object
pack_type object
route_description object
...
status object
hidden_flag object
updated float64
created_at object
updated_at object
medid object
dtype: object
write_to_parquet(df, parquet_output/h_billing_codes.SNAPPY.parquet, SNAPPY) ...
ERROR:root:2017-12-13 02:22:48 EXCEPTION IN (pqwrite2.py, LINE 23 "arrow_table = pa.Table.from_pandas(df)"): Error converting to Python objects to String/UTF8: Got Python object of type float but can only handle these types: str, bytes
2017-12-13 02:22:48 EXCEPTION IN (pqwrite2.py, LINE 23 "arrow_table = pa.Table.from_pandas(df)"): Error converting to Python objects to String/UTF8: Got Python object of type float but can only handle these types: str, bytes
デフォルトでは、read_csvはタブをセパレータとして使用します。あなたのデータには異なるセパレータがあるようです。 –