1
クラスタ化された棒グラフがあり、各クラスタで異常値を見つけたいとします。これは例に対して説明しやすいため、クラスタ化された棒グラフが「正規化」されているため、外れ値が表示される
ここでは、エラーコードの数を持っている(X軸:コード、Y軸:数)とクラスタは、たとえば、これらのエラーが記録されている個々のマシンです。 1001
がこれらすべてのマシンに束ねられ、897
がそれほど多くないことがわかります。私は、エラーコードクラスターごとに、特定のマシンが他のマシンと比べてアウトライヤー(高)である場所を見つけたいと思っています。
これは私の目で簡単に認識できるパターンです...しかし、多くのエラー1001
が記録され、他のすべてのエラーコードに対して線形のY軸でプロットされているということは、897
または176
は斑点が出にくい。
So:それぞれのクラスタを「正規化」する方法があります。小さいカウントのクラスタでは、Y軸の多くを占めるようにカウントが拡張/拡張されますか?
の外にある場合、あなたはそこから違い
をグラフ化すると、フィルタリングすることができ、最初にすべてのホスト間で平均エラー数を確立することを試みることができますhttp://stats.stackexchange.com/、これは良いでしょう。 – xan
私はデータ視覚化がそのスコープの一部であることに気付きませんでしたが、今は感謝しています! – davidbak
さらに、私はY軸を対数スケールに設定することを考えていたので、それはかなりうまく機能しました。私自身の答えでこれに答えるか、それを削除するのか、それとも何をするのかは分かりません。 – davidbak