2
私は、0から50の範囲の実数データを保持する1列のパンダのデータフレームを持っています。私が使用して分布を得ることができますデータの分布を考慮してDiscretisize Pandasの列
:私がやりたい何
hist, bins = np.histogram(df["col"])
は、それが中に落ちビン数ですべての値を置き換えることである
をそうするために、これは働いていました。
for i in range(len(df["speed_array"])):
df["speed_array"].iloc[i] = np.searchsorted(bins, df["speed_array"].iloc[i])
しかし、行のより4百万のデータフレームと、それは非常に遅い(50分)です。私はこれにもっと効率的な方法を探しています。あなたたちはもっと良いアイデアを持っていますか?
私が夢見たのと同じくらい簡単!ありがとう! – Xema
@Xemaオリジナルの '50min'マークよりもスピードアップを知っていいですか? – Divakar
まあ、それはかなり瞬間でした! – Xema