2016-08-31 3 views
0

に話者適応のためのクラスタサイズを決定し、IはnrOfClusters(クラスタの数)パラメータ値であるべき次のコードは、話者適応技術のためのCMUスフィンクス(Sphinxの-4)でスフィンクス-4

Stats stats = recognizer.createStats(nrOfClusters); 
recognizer.startRecognition(stream); 
while ((result = recognizer.getResult()) != null) { 
    stats.collect(result); 
} 
recognizer.stopRecognition(); 

// Transform represents the speech profile 
Transform transform = stats.createTransform(); 
recognizer.setTransform(transform); 

を使用してい良い結果を得るには?このスニペットを使用して、オーディオの複数のスピーカーに適応させるにはどうすればよいですか?

答えて

0

いい結果を得るにはnrOfClusters(クラスタ数)のパラメータ値を設定する必要がありますか?

クラスタ数は、適応するデータ量に依存します。データが多いほど、使用できるクラスタが増えます。たとえば、30秒間の発話がある場合、1つのクラスタで十分です。 10分のスピーチがある場合、最大32個のクラスタを使用できます。

このスニペットを使用して、オーディオの複数のスピーカーに適応させるにはどうすればよいですか?

各スピーカーの時間を知っている場合は、スピーカーごとに個別に調整を実行できます。異なるスピーカーのための共有変換を作成するのはあまり意味がありません。

+0

ニコライは返信してくれてありがとう、私はSphinx-4に関するいくつかの質問があります。 Sphinx-4でのMLLR変換実装による話者適応の詳細はどこで読むことができますか? Sphinx-4での音声認識の精度を向上させるための他のテクニックは何ですか?実行時に既存のSphinx-4言語モデルを更新してより正確なものを入手できますか?また、Sphinx-4は3xRTのスピードを示していますので、リアルタイムでスピードアップできるように改善するにはどうすればいいですか? – rishi007bansod

関連する問題