HadoopやSparkなどのクラスタコンピューティングインフラストラクチャを設定せずに、適度なサイズのパーケットデータセットをメモリ内のPandas DataFrameに読み込む方法を教えてください。これは、ラップトップ上の単純なPythonスクリプトを使用してメモリ内を読みたいと思うほどの量のデータです。データはHDFS上に存在しません。これは、ローカルファイルシステム上か、場合によってはS3内にあります。私は、Hadoop、Hive、Sparkのような他のサービスをスピンアップして設定したくありません。寄木細工のファイルをPandas DataFrameに読み込む方法は?
Blaze/Odoはこれを可能にしていると思いました.OdoのドキュメントにはParquetが書かれていますが、例はすべて外部のHiveランタイムを経由しているようです。
データは公開されていますか? python寄木細工の私の支店https://github.com/martindurant/parquet-python/tree/py3には、parquet.rparquetのパンダ・リーダーがありました。試してみることもできます。それが扱うことができない多くの寄せ木細工の構造があります。 – mdurant
Pandasの作者、Wes Mckinneyが参加しているApache Arrowプロジェクトを待ちます。 http://wesmckinney.com/blog/pandas-and-apache-arrow/完了後、ユーザーはPandasから直接寄木細工のファイルを読むことができるはずです。 – karenyng
質問はオフトピックとして閉鎖されているので(Googleでの最初の結果でも)コメントに答える必要があります。今すぐpyarrowを使用して寄木細工ファイルを読み込み、それをpandas DataFrame: 'import pyarrowに変換できます。 pqとしての寄木張り; df = pq.read_table( 'dataset.parq')。to_pandas() ' – sroecker