パンダは各列に対してnp.var（）を計算します

各列のnp.var（）の計算方法は？ np.var（）< 0.1の場合は、列を削除します。パンダは各列に対してnp.var（）を計算します

Id F M R 
7 1 286 907 
12 1 286 907 
17 1 186 1271 
21 1 296 905 
30 1 308 908 
32 1 267 905 
40 2 591 788 
41 1 486 874 
47 1 686 906 
74 1 230 907

出典

2016-06-30 liu gang

スクリプトplzを投稿できますか – Deadpool

この試してみてください。説明

In [62]: df[df.columns[(df.var(ddof=0) >= 1.0)]] 
Out[62]: 
    Id M  R 
0 7 286 907 
1 12 286 907 
2 17 186 1271 
3 21 296 905 
4 30 308 908 
5 32 267 905 
6 40 591 788 
7 41 486 874 
8 47 686 906 
9 74 230 907

を：@ayhanする

In [64]: (df.var(ddof=0) >= 1.0) 
Out[64]: 
Id  True 
F  False 
M  True 
R  True 
dtype: bool 


In [61]: df.columns[(df.var(ddof=0) >= 1.0)] 
Out[61]: Index(['Id', 'M', 'R'], dtype='object') 

In [62]: df[df.columns[(df.var(ddof=0) >= 1.0)]] 
Out[62]: 
    Id M  R 
0 7 286 907 
1 12 286 907 
2 17 186 1271 
3 21 296 905 
4 30 308 908 
5 32 267 905 
6 40 591 788 
7 41 486 874 
8 47 686 906 
9 74 230 907

PSのおかげで - 彼はpandas's var()がddof=1パラメータのデフォルト値を使用していることに気づいたとnumpy's implementationがデフォルトあたりddof=0を使用しています。

出典

2016-06-30 10:01:05 MaxU

np.varと全く同じ場合、pandas varに 'ddof = 0'を渡す必要があります。デフォルトでは、パンダは母集団の分散ではなく標本の分散を計算します。 – ayhan

@ayhan、良いキャッチ！どうもありがとう！私は私の答えを修正しました – MaxU

パンダは各列に対してnp.var（）を計算します

答えて

関連する問題