1

カーネル密度推定器については、下記のように、確率密度関数を推定するために使用されます。2次元カーネル密度推定の混乱R

私の混乱は正確にやってkde2dを何についてですか?下の例では、2つの確率変数 - f(a、b)の共分散確率密度関数を推定していますか?そして色は何を意味しますか?

ここでは、私が参照しているコード例を示します。事前に

b<-log10(rgamma(1000,6,3)) 
a<-log10((rweibull(1000,8,2))) 
density<-kde2d(a,b,n=100) 
filled.contour(density,color.palette=colorRampPalette(c('white','blue','yellow','red','darkred'))) 

おかげで、 林

+1

2つの確率変数の結合分布確率密度関数を推定しますか?はい。 'rv1'、' rv2'、 'estimated probability'の3軸があるので、' 2d'グラフに表示するには色分けしなければなりません。したがって確率を色分けしたり等確率の等高線を描くことができます。等高線の詳細については、wikipediaを参照してください。https://en.wikipedia.org/wiki/Contour_line – cel

+1

'kde2d'のソースコードを見てください。第2d通常の核密度推定が2つの1d通常kdesの積であることがわかったら、2d kdeを明確にすることはしばしば簡単です。 – shayaa

+0

@cel、ありがとうございましたので、**は暗いです**色は '(x、y)'の方が** white **より高い可能性があります。 **暗い**領域では、無作為変数 'x'と' y'は** white **より相関が高いということですか? –

答えて

5

カーネル密度推定量は何ですか? 本質的に、それはデータのあらゆる点(その点である標準密度の中心)に少しの標準密度曲線をフィットさせ、次にすべての小さな通常密度をカーネル密度推定器に追加します。

説明のため、1次元カーネル密度推定器の画像をone of your linksから追加します。 enter image description here

これまでは、1Dカーネル密度推定値の概要を素早く説明しました。

2次元カーネル密度はどうですか?

# library(MASS) 
b <- log10(rgamma(1000,6,3)) 
a <- log10((rweibull(1000,8,2))) 
# a and b contain 1000 values each. 

density <- kde2d(a,b,n=100) 

機能はmin(a)からmax(b)max(a)min(b)にグリッドを作成します。 aまたはbのすべての値に小さな1Dの標準密度をフィッティングする代わりに、kde2dはグリッド内のすべての点で小さな2D標準密度に適合するようになりました。 1次元のカーネル密度と同様に、すべての密度値を加算します。

色は何を意味しますか?コメントの中で指摘されているように、推定確率は2つの変数に依存するので、現在は3つの軸があります(a,bおよびestimated probability)。 3軸を視覚化する1つの方法は、等確率の等高線を使用することです。これは空想的ですが、基本的に天気予報から知っている高/低圧画像と同じです。

あなたは推定確率の最も高い値のため、だから、ローからハイに、プロットはwhiteに色付けされます

filled.contour(density,color.palette = colorRampPalette(c('white', 'blue', 
                  'yellow','red', 
                  'darkred'))))) 

を使用してblueyellowred、最終的にdarkredされています。

+0

Kenに感謝、投票してください。だから私のコード例では、**暗い**色は '(x、y)'の方が**白**より高い確率を意味します、正しい? **暗い**領域では、無作為変数 'x'と' y'は** white **より相関が高いということですか? –

+1

@LinMa私は投稿を編集しました。色は相関関係を表していません**、それらは推定関節密度の値を表します。 'kde2d'は' a'と 'b'の関係をモデル化するために共分散行列を組み入れていないので、' a'と 'b'の値の独立性を仮定していると確信しています。無相関。 –

+0

Kenに感謝の意を表する。私は深い色(あなたの例では暗い)について考えると、それは高密度を意味します - それは 'a'と' b'がそのような暗い領域で最も起こりそうなことを意味します、正しい?それが正しければ、なぜ「a」と結論付けできないのか、そして、「b」が暗い領域でより高い相関を有するのか? –

関連する問題