2015-12-22 4 views
6

私はいくつかの素粒子物理学の分析をやっているし、そこに誰かが私に私はいくつかのデータを推定するために使用しようとしているガウス過程のフィットにいくつかの洞察力を与えることができる期待していました。ガウス過程(scikit学習)予測信頼区間倒錯変態

は私がscikit-学ぶガウス過程のアルゴリズムに供給しています不確実性を持つデータを持っています。私は "ナゲット"引数を使って非制作者を含めています(私の実装はa standard example hereと一致します。私の "corr"は指数関数的に2乗され、 "ナゲット"の値は(dy/y)** 2)に設定されます。主な懸念事項は次のとおりです。分布の端で絶対不確かさは低いが(分数不確実性が高い)、この領域で予想される信頼区間よりもはるかに大きな予測信頼区間が生成されます(下のプロット参照)。

Data point and GP regression

不確実性がこのように振る舞う理由は、私は別の機能(x)の値で観察される粒子の数のヒストグラムである素粒子物理学のデータを扱ってるということです。これらのカウントはポアソン分布に従うので、不確実性(標準偏差)はsqrt(N)です。したがって、分布の高いカウント領域は絶対値は高くなりますが、小数点以下の不確実性は低くなりますが、その逆もあります。

は、私が述べたように乗指数カーネルで作業する場合、この機能で「ナゲット」の引数は(端数の不確実性)** 2の値を持つ必要があることを、理解しています。したがって、予測される不確実性が、入力の部分的な不確定性に基づいている場合、エッジで大きくなる可能性があります。しかし、私はこのことが数学でどのように演じられているかを完全には理解していません。予想される不確実性の大きさは、それが私にとって間違っていると思われるデータポイントの不確実性よりもはるかに大きいです。

ここで何が起こっているのか誰でもコメントできますか?これは期待どおりに動作していますか?もしそうなら、なぜですか?被験者のさらなる読書に対する考えや言及は非常に高く評価されるでしょう!

私はカップルの重要な注意事項をご任せします:分布のエッジにおけるゼロカウントのいくつかのデータポイントがある

1)。これは、(sqrt(0)/ 0)** 2はあまりうれしくない値なので、「ナゲット」の分数不確かさにねじれが生じます。私はここで、これらのポイントのナゲット値を1.0に設定することで調整しました。これは、1のカウントであれば得られる値に相当します。これは近い将来の質問に影響する一般的な近似であると思いますが、それが根本的に問題を変えるとは思わない。

2)私が働いているデータは、実際には、2Dヒストグラム(すなわち、1つの独立変数(Xを言うことができます)、別の(y)と従属変数(Z)としてカウント)です。示されたプロットは、2dデータおよび予測の1dスライス(すなわち、yの小さな範囲にわたって積分されたz vs x)である。私はこれが本当に問題に影響しているとは思わないが、私はそれに言及すると思った。

答えて

0

あなたからのプレゼンテーションから、私は数学を踏んだことはありませんが、動作は正しいと思われます。私の本能は私に言っている:均一なヒストグラムをしないでください。配送センターから離れるにつれてビンサイズを大きくします。それはあなたの価値を高め、あなたの部分的な誤りを減らします。

関連する問題