2016-04-15 31 views
1

現在、私はオーディオファイルを転記できるツールについて研究しています。私が最初に見ているのは、MicrosoftのSystem.Speech APIを使用する可能性です。Microsoft SAPI System.Speech for transcription

msdn documentationを見てみると、このツールは、スピーカーから何を期待するかについての知識がある短い音声コマンドに適しているようです。正確さのために文法を作成する必要があります。

このAPIの経験がある方は、これが正しいかどうかを確認できますか?

答えて

1

はい、いいえ。

理論的には任意の音声認識は、(したがって、理論的には精度ANY学位を持っている)SAPIを実装することができますが、私が見つけた株式窓認識は、自由形式のコマンドと制御のための深く良いが、それほどではありませんディクテーションまたはキーワードスポッティングのようなもの。

言葉の堅牢な選択を認識できず、非常に正確であるとは言えません。私はSAPIにクリンゴンを認識させて話しかけ、文法ファイルを大量に持っていました。独自のレコグナイザーや独自のSAPI音声を作成しようとすると、情報が絶対に欠けていることになります。通常、あなたを助けることができる人々は、それが非常に困難であるか、または所有している情報が専有であるため、正確には起こりそうにありません。

自由形式の方法で認識したいレクシーコンがあれば、おそらくスフィンクスのようなものを使うのがよいでしょう。

Microsoftは異なるトレードオフで利用できる3種類のSRエンジンを持っている - レスリーの答えに拡大すること

2

  • System.Speech.Recognition(またはデスクトップSAPI) - waveファイル(または他のストリーム)から、シングルの人 ディクテーションと入力をサポートしていますが、 認識装置は 良いを得るために特定の人のために訓練する必要があります認識。また、入力ソースは高品質(低ノイズ、16ビット、22KHzのサンプリングレート)の でなければなりません。

    • Microsoft.Speech.Recognition(またはサーバーSAPIは) - 全く ディクテーションをサポートしていませんが、waveファイル(または他の ストリーム)からの入力を取るん、訓練を必要とせず、低品質の入力で動作します ソース(より多くのノイズ、8ビット、8KHzサンプルレート)。

    • Windows.Media.Speech.Recognition - 新しいWindowsランタイム音声 認識API。口述をサポートし、訓練を必要とせず、低品質の入力ソースを使用して のファイルを使用しますが、ファイル からの入力は受けず、Windowsランタイムに基づいている必要があります。転写シナリオで

、私はWindows.Media.Speech.Recognitionツールを調査し、偽のデフォルトのオーディオ入力デバイスを作成するためにVirtual Audio Cableのようなものを見てみたいです。

+0

これは、最も客観的かつ最良の答えです。 –

関連する問題