fastparquet

11熱

1答えて

私は100,000以上の行で構成されたデータフレームを持ち、各行は100,000列、合計で10,000,000,000までの浮動小数点値を持ちます。私はcsv（タブ区切り）ファイルで以前にそれらを読んで、私は成功した250ギガバイトのRAMと50コアのXeonマシンにそれらを読み、など.parqディレクトリとしてそれを書いてみることができた： huge.csvの浮動小数点数は文字列として保存され

0熱

1答えて

正しい理由dask.dataframe.to_parquetをデバッグする

to_parquet機能を実行しているときに、列オブジェクトの種類に問題があることを確認しました。私はdaskバージョン15.1を実行しています。 astype(object)を使用して明示的に列を変換しましたが、これはすべての列ではなく一部の列で役立ちました。次のエラーが表示されます。TypeError: bad argument type for built-in operation obj

3熱

1答えて

寄木細工ファイルの生成 - RとPythonの違い

Dask（Python）とDrill（Sergeantパケットを使用している）にparquetファイルを生成しました。 R \ Drillでparquetファイルを削除することができた（これらのファイルを持っているし、代わりにparquet.crcファイルを持っていませんが（すなわちfastparquet）Daskのフォーマットは_metadataと_common_metadataファイルを持って

2熱

2答えて

dask/fastparquetを使用して複数のディレクトリから複数のparquetファイル（同じスキーマ）を読み取る方法

同じスキーマを持つ複数の寄せ木ファイルを単一のデータフレームに読み込むには、daskを使用する必要があります。これは、すべて同じディレクトリにあるときに機能しますが、別々のディレクトリにあるときには機能しません。例えば： import fastparquet pfile = fastparquet.ParquetFile(['data/data1.parq', 'data/data2.parq

-5熱

1答えて

ファーストパーケットを使用してサブファイル上のパーケットファイルを分割する

csvファイルをパーケットフォーマットに変換する必要があります。しかし、このcsvファイルは非常に巨大です（65,000行と1,000列以上）。そのため、私の寄木細工のファイルをいくつかのサブファイルに分割する必要があります（それぞれ5 000行と200列）。私はすでにpartition_onとrow_group_offsetsを試しましたが、うまくいきません。マイコード： import pan

1熱

1答えて

分散型ファーストディスパッチの処理時間が一貫していません

私は、ハイブフォーマットとスナッピー圧縮のパーケットファイルを用意しています。それはメモリに収まり、pandas.infoは以下のデータを提供します。寄木細工のファイルのグループごとの行数が今 >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+d