私は、サーバーの稼働時間とパフォーマンスデータのリストを作成するpythonスクリプトを持っています。各サブリスト(または「行」)には特定のクラスターの統計情報が含まれています。データセット内のアウトライヤーの検索
[[ams-a,98.099,1012,678,91],[bos-a,98.099,1111,12,91],...]
私の質問:
------- ------------- ------------ ---------- -------------------
Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization
------- ------------- ------------ ---------- -------------------
ams-a 98.099 1012 678 91
bos-a 98.099 1111 12 91
bos-b 55.123 1513 576 22
lax-a 99.110 988 10 89
pdx-a 98.123 1121 11 90
ord-b 75.005 1301 123 100
sjc-a 99.020 1000 10 88
...(so on)...
だからリスト形式で、それは次のようになります。各列の外れ値を決定するための最良の方法は何ですか例えば、うまくそれは次のようになりますフォーマットされましたか?あるいは、外れ値が「悪い」という問題を攻撃する最善の方法であるとは必ずしも言えませんか?上記のデータでは、エラーレートが非常に高いので、bos-bとord-b、ams-aについて知りたいが、他のものは破棄することができます。列に応じて、高い方が必ずしも悪くないわけでもなく、低い方でもないので、私はこれを行う最も効率的な方法を見つけようとしています。 numpyのように思えますが、この種のものについては多くのことが言及されていますが、どこから始めるべきかわかりません(悲しいことに、私は統計者よりもシステム管理者です...)。
ありがとうございます!
[stats.SE](http://stats.stackexchange.com/)のサイトで質問してみませんか? – csgillespie
@csgillespieいい考えです。 – septagram
http://stats.stackexchange.com/questions/6013/finding-outliers-in-a-data-setの複製 –