0
私はデータフレームdf
を持っており、そこからカラムmpg
を抽出します。データをnumpyのクラスにグループ化する
mpg
の値に基づいて、各行にクラスラベル/名前を追加したいとします。
私は
mpg = df.iloc[:,0]
median = np.percentile(mpg, q=50)
upper_quartile = np.percentile(mpg, q=75)
lower_quartile = np.percentile(mpg, q=25)
mpg_class = np.ones((num_observations, 1))
for i, element in enumerate(X):
mpg = element[0]
if mpg >= upper_quartile:
mpg_class[i] = 3
elif mpg >= median:
mpg_class[i] = 2
elif mpg >= lower_quartile:
mpg_class[i] = 1
else:
mpg_class[i] = 0
でそれを行っているが、私はそれが道賢くnumpy
で行うことが可能かどうだろうか?私はそれがnp.where
またはこれのようなものでそれをすることが可能かもしれないと思います。あなたがpd.qcutを探しているよう
サンプルケースを追加できますか? 'X'とは何ですか? – Divakar
'X'は多くの変数を持つパンダのデータフレームですが、' mpg = df.iloc [:、0] 'というベクトルは最初の列だけで、' 10.0'と '90.0の間の浮動小数点値を含んでいます'。 – Jamgreen
あなたは[Pandas 'Cut()?](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html)を探しています –