apache-arrow

    0

    1答えて

    私は二次元の二重配列ポインタを持っています。それをu_int8_tにキャストし、それを矢印プールバッファmutable_data()にフェッチして、矢印DoubleArrayを構築します。しかし、Value()、raw_values()の配列から値を取得すると、正しい番号を取得できません。誰かが私のコードを見て、私を助けてください: double* generateDoubleArray() {

    1

    1答えて

    PySpark DataFrame(pyspark.sql.DataFrame)をPandas dataframeに変換したいと思います。組み込みメソッドtoPandas()は非常に非効率です(この問題については、Wes McKinneyの記事をFenruary 2017 hereに戻し、彼の計算をthis jupyter notebookに読んでください)。 一方、このような変換を高速化するため

    1

    1答えて

    私は、寄木細工の形式でやや大きな(約20 GB)パーティションデータセットを持っています。 pyarrowを使用して、データセットから特定のパーティションを読みたいと思います。私はpyarrow.parquet.ParquetDatasetでこれを達成できると思ったが、それはそうではないようだ。ここに、私が欲しいものを説明するための小さな例があります。 ランダムデータセットを作成するには:私は、パ