2017-09-15 5 views
0

他のシリーズのフィルタに基づいてカテゴリ別のSeriesを作成したいと思います。パンダで、私はどうなる次DASK Seriesあるdaskでカテゴリシリーズを直接作成するにはどうすればよいですか?

import numpy as np 
import pandas as pd 
x = pd.Series(np.random.random(10)) 
test = x < 0.5 
label = pd.Series(pd.Categorical.from_codes(test, categories=['a', 'b'])) 

x場合は、例えば、.compute()from_pandasを回避(明示的に最初のパンダシリーズを作成することなく、同等のlabel DASKシリーズを作成するための方法があります)?

答えて

0

import dask.array as da 
import dask.dataframe as dd 

r = da.random.random(1000000, chunks=(10000,)) # dask array 
s = dd.from_array(r) # dask series 
label = s.map_partitions(
    lambda d: pd.Series(pd.Categorical.from_codes(
    d < 0.5, categories=['a', 'b'])), meta='category') 

を次のようにはい、あなたが必要なのは、利用可能である(あなたが本当に乱数を望まなかった場合はもちろん、あなたのsは、実際のデータに置き換え)

関連する問題