2016-05-22 6 views
1

私は、文脈の独立した/依存する音響モデリングが何であるかを正確に理解しようとしています。私はそれに対処するいくつかの論文を読むことを試みてきましたが、私はまだそのコンセプトでは少し不安定です。私が現在理解しているように(間違っている可能性がある)、文脈依存の音響モデルは、音素が連続して出現するデータに対して訓練された音響モデルである。例えば、単語を含むターゲット言語で訓練されるので、音素は前後に生じる音素によって文脈に依存し、文脈を与える。そして、独立した文脈は、単なる音素だけでどのように訓練されたかという音響モデルであろう。コンテキスト依存音響モデリングとは何ですか?

答えて

1

従来のアプローチは、隠れマルコフモデル(HMM)を用いて音声を認識することである。基本的にHMMでは、入力音を一連の状態として表現しようとします。各状態は、音素のある部分に対応する。

違いはモデルが訓練されたものではなく、モデル自体の構造です。音響モデルは、音の検出器の集合です。各検出器は、どのような音が類似しているかを記述する。例えば、音素特徴の最も可能性の高い値を記述するガウス混合モデル(GMM)である。あるいは、特定の音を検出するニューラルネットワークでもよい。

コンテキスト非依存モデルでは、隠れマルコフモデルの構造は単純です。単一の検出器ですべての電話の出現を検出します。あなたは

HH_begin HH_middle HH_end IY_begin IY_middle IY_end 

のための検出器を持つ単語「こんにちは」を検出言って、あなたはコンテキスト依存モデルではHH

HH_begin HH_middle HH_end OY_begin OY_middle OY_end 

電話のためにまったく同じ検出器をHH用の検出器での単語「ホイ」を検出"hi"と "hoy"は違っていて、別々に訓練されています。基本的には、パラメータの量が異なります。周囲の電話が電話自体の発音に影響を与えるため、これは合理的です。電話は少し違う音になります。だから、

HH_before_IY_begin HH_before_IY_middle 
    HH_before_IY_end IY_after_HH_begin 
     IY_after_HH_middle IY_after_HH_end 

を持っており、ホイ

HH_before_OY_begin HH_before_OY_middle 
    HH_before_OY_end OY_after_HH_begin 
     OY_after_HH_middle OY_after_HH_end 

のために、このアプローチの利点は、あなたがより多くのパラメータを持っているので、あなたがより正確に音声を認識できるということです。欠点は、ずっと多くの変種を考慮する必要があることです。

音声認識アルゴリズムは、一般に公開されているWebを超えて非常に複雑です。例えば、検出器の量を減らすためには、コンテキストに依存するモデルが通常はクラスタリングされ、いくつかの小さな集合に結び付けられます。何百ものコンテキストに依存する検出器の代わりに、優れた差別化と一般化を提供するために合併された数千もの検出器があります。

あなたは音声認識アルゴリズムと実践の代わりに、ウェブ上のランダム源を真剣に考えているならば、Spoken Language Processingまたは少なくとも紙The Application of Hidden Markov Models in Speech Recognition

のような教科書を読む方が良いです
関連する問題