2017-03-31 11 views
0

my_file_*.csvというCSVのセットからDaskデータフレームに読み込むコードを記述しようとしています。CSVの長さとしてパーティションを設定するCSVを読み取るDask

次に、CSVの長さに基づいてパーティションを設定します。私は各パーティションに関数をマップしようとしており、そのためには各パーティションがCSV全体でなければなりません。

インデックスをリセットして、各CSVの長さに基づいてパーティションを設定しようとしましたが、Daskデータフレームのインデックスが一意ではないようです。

各CSVの長さに基づいてパーティションを分割するより良い方法はありますか?

+0

いくつかの部分に関するデータ

  • 詳細からDASKのデータフレームを生成する方法は非常に不明確です。 "各パーティションに関数をマップする"と "csvの長さに基づいて" csvの長さは行数や列数などを意味しますか? – Steven

  • 答えて

    1

    したがって、1つのパーティションに正確に1つのファイルを含める必要がありますか? あなたはコールド:

    import dask.dataframe as dd 
    ddf = dd.read_csv(my_file_*.csv, blocksize = None) 
    

    をNoneにブロックサイズを設定するには、ファイルが複数のパーティションに分割されていないことを確認します。したがって、ddfは、パーティションごとに1つのファイルを含むdaskデータフレームになります。あなたがドキュメントをチェックアウトする場合があります

    +0

    ありがとうございます!これは多くの助けとなりました。 – abcdefg

    関連する問題