パンダのデータフレームからアウトライアローを削除する

-1

パンダのデータフレームからアウトライアを削除する効率的な方法は何ですか？私は、データフレームからアウトライアポイントを削除する必要があるパンダのデータフレームを持っています。パンダのデータフレームからアウトライアローを削除する

X1  X2    X3    X4 
228.0 4474.91836735 3507.15151515 6625.0 
77.0 468.0   582.0   549.0 
160.0 9.0    3507.15151515 6625.0 
36.0 250.0   3507.15151515 6625.0 
52.0 3.0    3.0    223.0 
78.0 998.0   3507.15151515 6625.0

Iはlink 溶液と試みたが、何点が除去されませんでした。同じものに対するスケルトンの実装さえも役に立ちます。

出典

2017-09-24 kashf34Kashf

実際には、1）外れ値の検出、2）データフレームからの外れという2つの問題があります。

問題＃2はかなり簡単です。

df = df[df.loc[:,'column_name'] < high_threshold] 
df = df[df.loc[:,'column_name'] > low_threshold]

これで外れ値の検出方法が大幅に異なります。これらの4つの次元だけで、それほどデータではない場合は、Median Absolute Deviationアプローチで十分であり、sklearnは必要ありません。

私はあなたのアプリケーションを知らないので、this documentation on outlier detection in sklearnに指摘します。

出典

2017-09-24 21:09:58 kdd

パンダのデータフレームからアウトライアローを削除する

答えて

関連する問題