2015-10-05 14 views
17

私は、ParquetファイルをPythonを使って書くことができるライブラリを見つけるのに困っています。ボーナスは、スナッピーやそれに類似の圧縮メカニズムを併用することができます。Pythonを使用して寄木細工のファイルを書く方法は?

は、これまで私が見つけた唯一の方法は、pyspark.sql.DataFrame寄木サポートしてスパークを使用しています。

私は仕事をスパークされていない寄せ木ファイルを作成する必要がありますいくつかのスクリプトを持っています。 Pythonで寄木細工のファイルを書く方法がありますか?pyspark.sqlは含まれていませんか?

+0

にデータを書き込むためのスニペットは、寄せ木フォーマットはthirft定義ファイルは、あなたがそれにアクセスするためにこれを使用することはできません持っているようだのですか? – Srgrn

答えて

12

アップデート(2017年3月):現在寄せ木ファイルの書き込みできる2つのライブラリがあります。

  1. fastparquet
  2. pyarrow

は、それらの両方が下に残っています重い開発と思われ、いくつかの免責事項が付いてくる例えばネストされたデータの場合はt)、必要なものがすべてサポートされているかどうかをチェックする必要があります。

OLD ANSWER:

NOのpython-のみ書き込み寄せ木ファイルのライブラリできることがないように思わ2.2016の通り。

を読む必要がある場合は、寄木細工ファイルをお読みくださいpython-parquetです。あなたは、例えばのようないくつかの他のプロセスに依存する必要があります回避策として

pyspark.sql(これはPy4Jを使用し、JVM上で実行されるため、平均CPythonプログラムから直接使用することはできません)。

+1

バッチで複数のdfsを作成するなど、既存のファイルにデータを追加できるようにする必要がある場合は、fastparquetが便利です。私はpyarrowに1つの言及を見つけることができず、コードがそれに対応していないようだ(2017年3月)。 – Kieleth

4

fastparquetは書き込みサポートを持っている、ここにファイル

from fastparquet import write 
write('outfile.parq', df) 
関連する問題