2017-09-24 4 views
-1

パンダのデータフレームからアウトライアを削除する効率的な方法は何ですか? 私は、データフレームからアウトライアポイントを削除する必要があるパンダのデータフレームを持っています。パンダのデータフレームからアウトライアローを削除する

X1  X2    X3    X4 
228.0 4474.91836735 3507.15151515 6625.0 
77.0 468.0   582.0   549.0 
160.0 9.0    3507.15151515 6625.0 
36.0 250.0   3507.15151515 6625.0 
52.0 3.0    3.0    223.0 
78.0 998.0   3507.15151515 6625.0 

Iはlink 溶液と試みたが、何点が除去されませんでした。同じものに対するスケルトンの実装さえも役に立ちます。

答えて

0

実際には、1)外れ値の検出、2)データフレームからの外れという2つの問題があります。

問題#2はかなり簡単です。

df = df[df.loc[:,'column_name'] < high_threshold] 
df = df[df.loc[:,'column_name'] > low_threshold] 

これで外れ値の検出方法が大幅に異なります。これらの4つの次元だけで、それほどデータではない場合は、Median Absolute Deviationアプローチで十分であり、sklearnは必要ありません。

私はあなたのアプリケーションを知らないので、this documentation on outlier detection in sklearnに指摘します。

関連する問題