fastparquet

    11

    1答えて

    私は100,000以上の行で構成されたデータフレームを持ち、各行は100,000列、合計で10,000,000,000までの浮動小数点値を持ちます。 私はcsv(タブ区切り)ファイルで以前にそれらを読んで、私は成功した250ギガバイトのRAMと50コアのXeonマシンにそれらを読み、など.parqディレクトリとしてそれを書いてみることができた: huge.csvの浮動小数点数は文字列として保存され

    0

    1答えて

    to_parquet機能を実行しているときに、列オブジェクトの種類に問題があることを確認しました。私はdaskバージョン15.1を実行しています。 astype(object)を使用して明示的に列を変換しましたが、これはすべての列ではなく一部の列で役立ちました。 次のエラーが表示されます。TypeError: bad argument type for built-in operation obj

    3

    1答えて

    Dask(Python)とDrill(Sergeantパケットを使用している)にparquetファイルを生成しました。 R \ Drillでparquetファイルを削除することができた(これらのファイルを持っているし、代わりにparquet.crcファイルを持っていませんが(すなわちfastparquet)Daskのフォーマットは_metadataと_common_metadataファイルを持って

    2

    2答えて

    同じスキーマを持つ複数の寄せ木ファイルを単一のデータフレームに読み込むには、daskを使用する必要があります。これは、すべて同じディレクトリにあるときに機能しますが、別々のディレクトリにあるときには機能しません。例えば : import fastparquet pfile = fastparquet.ParquetFile(['data/data1.parq', 'data/data2.parq

    -5

    1答えて

    csvファイルをパーケットフォーマットに変換する必要があります。しかし、このcsvファイルは非常に巨大です(65,000行と1,000列以上)。そのため、私の寄木細工のファイルをいくつかのサブファイルに分割する必要があります(それぞれ5 000行と200列)。私はすでにpartition_onとrow_group_offsetsを試しましたが、うまくいきません。 マイコード: import pan

    1

    1答えて

    私は、ハイブフォーマットとスナッピー圧縮のパーケットファイルを用意しています。それはメモリに収まり、pandas.infoは以下のデータを提供します。 寄木細工のファイルのグループごとの行数が今 >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+d