3

2つ以上の音声からテキストへのAPIを使用して音声を書き写そうとしたことはありますか?あなたはタイムスタンプを使って単語を突き合わせて、最も高い信頼度で単語を選ぶことができます。誰かがこれをしたならば、それは転写の正確さを大幅に改善しましたか?その価値はありますか?複数の音声からテキストAPIを使用して精度を向上させる

答えて

0

このアプローチは、さまざまな理由で問題になる可能性があります。すべてのベンダーが1単語単位で信頼スコアを返すわけではなく、たとえそれがあったとしても、1つのベンダーから60%の信頼が得られたとしても、別のベンダーのAPIから60%の信頼スコアと同じではありません。信頼スコアは、それらを発行しているAPIのコンテキスト内でのみ有効です。

ほとんどの音声テキストベンダーは、現時点ではかなり良いモデルを持っています。 IBM Watsonのように、実際にはボキャブラリー・ワードを追加してモデルをカスタマイズすることができます。 SWITCHBOARDコーパスに対する業界のベンチマークを見ると、ベンダーは互いの改善と飛躍を続けていることがわかります。 Microsoftは09/13/2016にエラー率が最も低いと発表しました(https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/)。 Googleは2011年1月11日、これを打ち負かすと主張し、その後、IBMは03/07/2017(https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/)の優越性を主張しました。その差異はすべて改善の割合または割合であった。私はこの改良の飛躍が短期間継続することを期待しています。

2つの異なるAPIを使用することで、スピーチのコストをテキスト実装に倍増させることができます。これは達成する精度の最小限の向上に基づいています。

0

これはデコードのスピードに気を使わず、正確さが必要な多くのスピーチコンテストの標準的な方法です。システムの組み合わせは通常、約10%以上の大幅な改善をもたらしますので、多くの場合有益です。

仮説を正しく組み合わせるためにタイムスタンプは必要ありません。出力を統計的に比較することができます。主題の参考のためにSCTKにROVERの実装を参照してください

iCNC and iROVER:The Limits of Improving System Combination with Classification? Bjorn Hoffmeister, Ralf Schluter, and Hermann Ney

A PAIRED TEST FOR RECOGNIZER SELECTION WITH UNTRANSCRIBED DATA Bhiksha Raj, Rita Singh and James Baker

をお読みください。

+0

ROVERはかなり興味深いようですが、非常に古いです。より高度で最新のものがありますか? – JJJamie

関連する問題