単峰性の分布に従うと思われるデータは、1つまたは2つのガウス分布を混合してモデル化することができます。同様に、バイモーダル分布に従うように見えるデータは、時には2つまたは3つの混合物としてモデル化されることが最もよい。ヒストグラムが作成された未処理のデータがまだ残っている場合は、sklearnの機能を使用して、データに最適な混合ガウスを特定できます。方法を示すhttp://www.astroml.org/book_figures/chapter4/fig_GMM_1D.htmlのコードがあります。そのようなモデルがあれば、そのコードに示されている手法を使って疑似ランダムサンプルを生成することができます。
Iコードであることを確認
:
gmm = GMM(3, n_iter=1)
gmm.means_ = np.array([[-1], [0], [3]])
gmm.covars_ = np.array([[1.5], [1], [0.5]]) ** 2
gmm.weights_ = np.array([0.3, 0.5, 0.2])
したがって、それはおそらく相対的であり、その共分散行列および重みの集合、それらの手段を用いて、混合物中のガウス分布の数のステートメントを必要とします各ガウス分布のサンプリング回数。
編集:私はこの回答を改善できるように、私はなぜ落選したのか推測しています。私は説明が不十分なリンクを含んでいる可能性があります。
考えられるのは、上記のようにパラメータを1回(例えば)4つのガウス分布で混合した後、GMMを複数回呼び出すことです。サンプルがあれば、これらのモデルで使用できる品質の指標を比較し、最良の数を判断するためにaicとbicとして知られています。
回答が間違っている場合は、話してください!
私は生のデータをどのようにしてどこで混合ガウス分布を識別できるのか分かりません。 – dilution