CSVの長さとしてパーティションを設定するCSVを読み取るDask

my_file_*.csvというCSVのセットからDaskデータフレームに読み込むコードを記述しようとしています。CSVの長さとしてパーティションを設定するCSVを読み取るDask

次に、CSVの長さに基づいてパーティションを設定します。私は各パーティションに関数をマップしようとしており、そのためには各パーティションがCSV全体でなければなりません。

インデックスをリセットして、各CSVの長さに基づいてパーティションを設定しようとしましたが、Daskデータフレームのインデックスが一意ではないようです。

各CSVの長さに基づいてパーティションを分割するより良い方法はありますか？

2017-03-31 abcdefg

いくつかの部分に関するデータ

詳細からDASKのデータフレームを生成する方法は非常に不明確です。 "各パーティションに関数をマップする"と "csvの長さに基づいて" csvの長さは行数や列数などを意味しますか？ – Steven

したがって、1つのパーティションに正確に1つのファイルを含める必要がありますか？あなたはコールド：

import dask.dataframe as dd 
ddf = dd.read_csv(my_file_*.csv, blocksize = None)

をNoneにブロックサイズを設定するには、ファイルが複数のパーティションに分割されていないことを確認します。したがって、ddfは、パーティションごとに1つのファイルを含むdaskデータフレームになります。あなたがドキュメントをチェックアウトする場合があります

：

2017-04-01 09:27:40

ありがとうございます！これは多くの助けとなりました。 – abcdefg

答えて