2017-03-16 9 views
-1

私は生物学的データに属する異なる分布を持っています。RまたはPython - 特定の理論的なマルチモーダル分布をシミュレート

example of distribution

これらの分布は二峰性分布(0.330.66)又は三峰性分布(0.25, 0.5, 0.75)いずれか、単一モーダル分布(mean = 0.5)のいずれかに従うことが期待されています。

私が望むのは、私が生物学的データから得たものをPythonまたはRと比較するためにこれらの「理論的」分布をシミュレートすることです。

さらに、どのパラメータがそれらを比較するために使用されるのだろうか... 形状、標準偏差、歪みおよび尖度?

答えて

-1

単峰性の分布に従うと思われるデータは、1つまたは2つのガウス分布を混合してモデル化することができます。同様に、バイモーダル分布に従うように見えるデータは、時には2つまたは3つの混合物としてモデル化されることが最もよい。ヒストグラムが作成された未処理のデータがまだ残っている場合は、sklearnの機能を使用して、データに最適な混合ガウスを特定できます。方法を示すhttp://www.astroml.org/book_figures/chapter4/fig_GMM_1D.htmlのコードがあります。そのようなモデルがあれば、そのコードに示されている手法を使って疑似ランダムサンプルを生成することができます。

Iコードであることを確認

gmm = GMM(3, n_iter=1) 
gmm.means_ = np.array([[-1], [0], [3]]) 
gmm.covars_ = np.array([[1.5], [1], [0.5]]) ** 2 
gmm.weights_ = np.array([0.3, 0.5, 0.2]) 

したがって、それはおそらく相対的であり、その共分散行列および重みの集合、それらの手段を用いて、混合物中のガウス分布の数のステートメントを必要とします各ガウス分布のサンプリング回数。

編集:私はこの回答を改善できるように、私はなぜ落選したのか推測しています。私は説明が不十分なリンクを含んでいる可能性があります。

考えられるのは、上記のようにパラメータを1回(例えば)4つのガウス分布で混合した後、GMMを複数回呼び出すことです。サンプルがあれば、これらのモデルで使用できる品質の指標を比較し、最良の数を判断するためにaicbicとして知られています。

回答が間違っている場合は、話してください!

+0

私は生のデータをどのようにしてどこで混合ガウス分布を識別できるのか分かりません。 – dilution

関連する問題