したがって、dask.dataframe.map_partitions()
はfunc
引数とmeta
kwargをとります。戻り値の型はどのくらい正確に決定されますか?例として:Python Dask - dataframe.map_partitions()戻り値
多くのcsvの... \ some_folderにあります。
ddf = dd.read_csv(r"...\some_folder\*", usecols=['ColA', 'ColB'],
blocksize=None,
dtype={'ColA': np.float32, 'ColB': np.float32})
example_func = lambda x: x.iloc[-1]/len(x)
metaResult = pd.Series({'ColA': .1234, 'ColB': .1234})
result = ddf.map_partitions(example_func, meta=metaResult).compute()
は、私は「分散」コンピューティングはかなり新しいんだけど、私は直感的に、これはシリーズオブジェクトのコレクション(リストや辞書、最も可能性が高い)を返すことを期待する、まだ結果はその可能性Seriesオブジェクトであります各パーティションでexample_funcの結果を連結したものとみなしてください。このシリーズ自体にパーティションラベルを示すMultiIndexがあれば、これだけでも十分です。 ddf.divisions
は、CSV形式のを読み取った結果として(None, None, ..., None)
を返しますので、私はthis questionから伝えることができるものから、
example_func
によって返されたシリーズの連結)を手動で入れて破る必要がありますか?
また、私がdaskするのが初めてのので、私の前提/慣行をここで修正してください。
インジケータ列... duh!受け入れられました。 – StarFox