2016-12-07 10 views
1

私には概念上の問題があります。話者認識と音声認識に使用されるMFCC機能の違いは?

私はMFCCが何であるか知っています。しかし、話者認識のためのmfcc特徴ベクトルと音声認識のためのmfcc特徴ベクトルの違い、すなわち、mfcc特徴のどの部分が2つの間の差異要因として使用されるのかを見つけることができないのですか? また、mfccベクトルに基づいて2つのスピーカーを区別する方法もありますか?

答えて

0

機能は非常に似ています。違いは、係数の数、ウィンドウサイズ、正規化...などです。this threadを見てください。

mfcc機能を使用すると、複数の方法でスピーカーを区別できます。最も有名な技術の二つがある:

  • GMM/UBM技術:あなたが背景モデルとして、各話者のためのGMMと別のGMMを作成し、その後、入力された発話を獲得します。
  • iベクトル技法:それは、スピーカー音響モデルを表す新しいベクトルを生成するためのmfccの後処理の一種です。このテクニックはMicrosoft Speaker Recognition Serviceで使用され、here's a descriptionではどのように動作しますか。