2つ以上の音声からテキストへのAPIを使用して音声を書き写そうとしたことはありますか?あなたはタイムスタンプを使って単語を突き合わせて、最も高い信頼度で単語を選ぶことができます。誰かがこれをしたならば、それは転写の正確さを大幅に改善しましたか?その価値はありますか?複数の音声からテキストAPIを使用して精度を向上させる
答えて
このアプローチは、さまざまな理由で問題になる可能性があります。すべてのベンダーが1単語単位で信頼スコアを返すわけではなく、たとえそれがあったとしても、1つのベンダーから60%の信頼が得られたとしても、別のベンダーのAPIから60%の信頼スコアと同じではありません。信頼スコアは、それらを発行しているAPIのコンテキスト内でのみ有効です。
ほとんどの音声テキストベンダーは、現時点ではかなり良いモデルを持っています。 IBM Watsonのように、実際にはボキャブラリー・ワードを追加してモデルをカスタマイズすることができます。 SWITCHBOARDコーパスに対する業界のベンチマークを見ると、ベンダーは互いの改善と飛躍を続けていることがわかります。 Microsoftは09/13/2016にエラー率が最も低いと発表しました(https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/)。 Googleは2011年1月11日、これを打ち負かすと主張し、その後、IBMは03/07/2017(https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/)の優越性を主張しました。その差異はすべて改善の割合または割合であった。私はこの改良の飛躍が短期間継続することを期待しています。
2つの異なるAPIを使用することで、スピーチのコストをテキスト実装に倍増させることができます。これは達成する精度の最小限の向上に基づいています。
これはデコードのスピードに気を使わず、正確さが必要な多くのスピーチコンテストの標準的な方法です。システムの組み合わせは通常、約10%以上の大幅な改善をもたらしますので、多くの場合有益です。
仮説を正しく組み合わせるためにタイムスタンプは必要ありません。出力を統計的に比較することができます。主題の参考のためにSCTKにROVERの実装を参照してください
をお読みください。
- 1. スキャンしたドキュメントからOCRの精度を向上させる
- 2. GoogleスピーチAPIを使用して音声をテキストに転記する際にサポートされる音声の長さ
- 3. テキストから音声へのWeb API
- 4. どの分類器がテキスト分類の精度を向上させるか
- 5. シナリオを使用してビン音声/カスタム音声APIを使用する
- 6. Tizenデバイスのハートビートセンサーから返される値の精度を向上させる
- 7. Java APIを使用したAWSサービスによる音声テキスト
- 8. pchisq小数精度を向上
- 9. Android Mobile-Vision複数から選択するときの精度を向上させる方法
- 10. Bing Speech API(音声からテキスト)を使用したMP3オーディオファイルの書き換え
- 11. 英語のpocketsphinxオープンソース音声認識APIの精度を向上させるにはどうすればよいですか?
- 12. 複数言語のテキストへの音声
- 13. 複数言語のテキストへの音声
- 14. テンソルフローオブジェクト検出APIを使用したオブジェクト検出精度の向上方法
- 15. テキストと音声を一致させる
- 16. ライブストリームからの音声テキスト
- 17. チタンのテキストから音声
- 18. TensorFlowを使用した音声テキスト
- 19. Twilioを使用した音声テキスト
- 20. JSAPIを使用した音声からテキストへの変換
- 21. Plivoを使用した大量のテキストから音声へ
- 22. sklearnのモデルの精度を向上させる
- 23. OCRのPython tesseractの精度を向上させる
- 24. CMUSphinx 5のスピードと精度を向上させる
- 25. Apache Sparkマルチレイヤパーセプトロンクラシファイアの精度を向上させる方法は?
- 26. OCR精度を向上させるためのマルチデシジョンエンジン
- 27. 反復の精度を向上させるには?
- 28. JFileChooserを使用して、テキストから音声を音声ファイルに保存します。
- 29. pytesseract&PILによるテキスト認識の精度を向上
- 30. 音声からテキストへの変換用API。
ROVERはかなり興味深いようですが、非常に古いです。より高度で最新のものがありますか? – JJJamie