2017-02-15 11 views

答えて

0

1)既存のDNNモデルを使用するか、自分でトレーニングします。あなたはKaldiのTedlium実験を使うことができます。自由に走ることができます。モデルが英語用であれば問題ありませんが、他の言語用にも機能します。

2)両方のトレーニングキーフレーズからDNNのposteriorsを抽出します。 nnet3-am-computeツールを使用することができます。それはDNNモデルを取って、すべてのフレームに対して音声または状態のposteriorsを返します。

3)DTW algorithmを実装してDNNのposteriorsを比較します。この部分はあなた自身で行う必要がありますが、Kaldiでは実装されていません。アルゴリズムを説明

関連論文:

Investigating Neural Network based Query-by-Example Keyword Spotting Approach for Personalized Wake-up Word Detection in Mandarin Chinese

Query-By-Example Spoken Term Detection Using Phonetic Posteriorgram Templates

関連する問題