私は音声認識を使用していますが、十分なコンテキストがある場合は非常にうまくいきます。私は数値入力のためだけに音声認識を使用しており、問題を見ています。たとえば、1桁の数字(2〜、〜、8桁など)を入力します。十分な文脈がない。あるいは、2桁の数字でさえ(80は馬鹿として翻訳されることもあります)。入力が数字になることを音声認識装置に伝えたいと思います。例えば、入力が「番号2」である場合、音声認識装置は素晴らしい仕事をする。数値入力のためにiosで音声認識を改善するにはどうすればよいですか?
私はいくつかのヒントSFSpeechRecognitionTaskHint(不特定、口述、検索、確認)で遊んだが、これらのモードは数値入力には適していません。
ので、ご質問は以下のとおりです。
- オーディオが数値であることを行っていることをSFSpeechRecognizerにヒントを与える方法はありますか?または
- 私のニーズに適した別の音声認識技術がありますか?
私はこれも多くの異なる言語(英語だけでなく)で作業したいと考えています。あなたの助けのための
おかげで、 エリック
これはクールなハックです –
ありがとうございました。私はそのアイデアが気に入っていますが、心配しています。 1つは、あらかじめ書き直したオーディオをライブオーディオとミックスして一致させることができるかどうかはわかりません。私はあなたができると思うが、前にそれを見たことがない。 2つ、もっと重要なのは、私はこれが多くの言語で動作するようにしたいと思っています。そのように動作するかどうかは確かではありません。特に、いくつかの言語(例えばMandarin)では "number ...少なくともそれは私のマンダリンの友達から教えてくれるものです。 – Eric