2

多変量ガウス分布を使用して異常を分析しています。 これは、トレーニングセットが多変量ガウス分布で1つのフィーチャの標準偏差をゼロにする方法

19-04-16 05:30:31 1 0 0 377816 305172 5567044 0 0 0 14 62 75 0 0 100 0 0 
<Date>  <time>  <--------------------------- ------- Features ---------------------------> 

が、彼らはゼロのまま、上記の機能の1つが変化していないと言うことができますどのように見えるかです。各データセット内の個々の特徴の

計算平均=ミュー

mu = mean(X)' 

計算sigma2

sigma2 = ((1/m) * (sum((X - mu') .^ 2)))' 

として確率について

guassian

ような標準的なガウス式を用いて計算されます特定の特徴、もしllの値がゼロになると、mean(mu)もゼロになります。その後、sigma2もゼロになります。 これにより、ガウス分布による確率を計算すると、「ゼロによるデバイス」という問題が発生します。

しかし、テストセットでは、このフィーチャ値は変動する可能性があり、異常とも言いたいのですが。どのように、これを処理する必要がありますか?私はそのような特徴を無視したくない。

答えて

1

この問題は、定数がある変数を持つたびに発生します。しかしそれを正規分布で近似することは全く意味がありません。そのような変数に関するすべての情報は、1つの値にのみ含まれています。これは、0除算がなぜ発生するのかという直感です。

トレーニングセットに見られないこれらの変動があることがわかっている場合は、その変数の分散を特定の値より小さくしないでください。古典的な分散定義の代わりに関数max(variance(X), eps)を適用することができます。次に、0による除算が発生していないことを確認します。

+0

入力いただきありがとうございます。結果について私は試して更新します。 –

+0

そして?私の答えはあなたを助けましたか? –

+0

もう一度提案に感謝します。遅く返事をして申し訳ありません。はい、動作します。そして私があなたの提案から理解しているのは、そのフィーチャに小さな「分散」を組み込もうとしていることです(確認してください)(平均/標準偏差がゼロになる場合はおそらく追加します)この値(eps)は異常と称することができる。 EPSは(定義によると)「機械の」浮動小数点システムの2つの隣接する数字の間のスペースになります。私はこれがトリックを行うべきだと思います。 :-) –

関連する問題