0

隠れマルコフモデルでのガウス混合モデルの使用を理解したいと思います。GMM-HMMのパラメータ数

音声データがあり、5つの音声(HMMの状態)を認識しているとします。たとえば、単純にするために電話の代わりに文字を考慮して、音声サンプルを 'O'(s、u、h、b、a)とすると、 'X'がHMM状態になります。ここでは、3つの混合物のガウス混合モデルを使用して、次の式を使用して各状態のガウス密度を推定します(評判ポイントのために画像をアップロードできません)。

P(X | O)=合計(I = 1-> 3)W(I)* P(X |ムー(I)、VAR(I))(単変量分布を考慮して)

ので、まずEMアルゴリズムを用いて学習データからGMMパラメータを学習する。 これらのパラメータをHMMパラメータの学習に使用し、これが完了すると、テストデータに両方のパラメータを使用します。 この例では、GMMの3 * 3 * 5(3つの混合物と5つの状態の重み、平均、分散)パラメータを学習しています。 私の理解は正しいですか?

答えて

1

あなたの理解はほとんど正しいですが、通常はパラメータの数が大きくなります。平均と分散はベクトルであり、数ではありません。完全共分散GMMのまれなケースでは分散が行列になる可能性があります。各ベクトルは、通常、13ケプストラム+13デルタ+13デルタデルタについて39成分を含む。

だから、すべての携帯電話のためにあなたは、パラメータの

39 + 39 + 1 = 79 parameters 

総数は通常の携帯電話がない単一の状態から、3かそこらの状態で構成され、

79 * 5 = 395 

ですし、学びます。したがって、GMM用に395 * 3または1185のパラメータがあります。次に、HMMの遷移行列が必要です。多くのパラメータが必要なので、トレーニングには大量のデータが必要です。

+0

Nikolay Shmyrev:電話機あたりのパラメータ数を明らかにするには、39(平均)+39(分散)+1(?)、1は何ですか? – suhas

+0

Nikolay Shmyrev:電話機あたりのパラメータ数を明らかにするには39(平均)+39(分散)+1(?)、1は何ですか?また、1の混合ガウスである場合にのみ79になります。そのコンポーネントが10個のコンポーネントで構成されている場合、合計パラメータ数は電話1台につき10 * 79(単一の状態のみを考慮)です。私は正しいですよ? – suhas

+0

1は重量を表す。あなたが正しいです、10の混合物については、10 * 79のパラメータがあります。 –