私はpandas
とnumpy
にかなり新しく、いくつかのことをする最善の方法を見つけようとしています。パンダのデータフレームにベクトル化された関数を適用できますか?
今私はdataframe
のすべての行で関数を呼び出そうとしています。この関数に3つのnumpy
配列を渡すと非常に高速ですが、dataframe
のapply
を使用すると非常に遅いです。
私の推測では、numpy
は、ベクトル化された関数を最初のケースで使用し、2番目のケースでは使用していないと思われます。その最適化をpandas
に使用する方法はありますか?基本的には、擬似コードではfor row in frame: func(row['a'], row['b'], row['c'])
のようなものをapply
がやっていると思うが、それはfunc(col['a'], col['b'], col['c'])
としたい。
ここに私がしようとしているものの例があります。
import numpy as np
import pandas as pd
from scipy.stats import beta
count = 100000
# If I start with a given dataframe and use apply, it's very slow
df = pd.DataFrame(np.random.uniform(0, 1, size=(count, 3)), columns=['a', 'b', 'c'])
df.apply(lambda frame: beta.cdf(frame['a'], frame['b'], frame['c']), axis=1)
# However, if I split out each column into a numpy array, this is very fast.
a = df['a'].as_matrix()
b = df['b'].as_matrix()
c = df['c'].as_matrix()
beta.cdf(a, b, c)
# But at this point I've lost the context of the dataframe.
# I would like to keep the results in a new column for further processing
ベクトル化は機能固有のものです。ですから、あなたは 'beta.cdf'だけをベクトル化しようとしていますか? – Divakar
beta.cdfはすでに配列(とSeries)を受け入れていますが、代わりにapplyを使用するのはなぜですか? – ayhan
なぜ 'beta.cdf(df.a、df.b、df.c)'を呼び出さないのですか? – BrenBarn