2017-08-28 11 views
3

私は音声認識を使用していますが、十分なコンテキストがある場合は非常にうまくいきます。私は数値入力のためだけに音声認識を使用しており、問題を見ています。たとえば、1桁の数字(2〜、〜、8桁など)を入力します。十分な文脈がない。あるいは、2桁の数字でさえ(80は馬鹿として翻訳されることもあります)。入力が数字になることを音声認識装置に伝えたいと思います。例えば、入力が「番号2」である場合、音声認識装置は素晴らしい仕事をする。数値入力のためにiosで音声認識を改善するにはどうすればよいですか?

私はいくつかのヒントSFSpeechRecognitionTaskHint(不特定、口述、検索、確認)で遊んだが、これらのモードは数値入力には適していません。

ので、ご質問は以下のとおりです。

  • オーディオが数値であることを行っていることをSFSpeechRecognizerにヒントを与える方法はありますか?または
  • 私のニーズに適した別の音声認識技術がありますか?

私はこれも多くの異なる言語(英語だけでなく)で作業したいと考えています。あなたの助けのための

おかげで、 エリック

答えて

2

あなたは数字のみのためにそれをカスタマイズすることができるようになる現在、音声フレームワークでは何もありません。 "number"という単語を前に付けるテキストがうまく機能していると言っているならば、 "数字"の音で音声ファイルを録音して、そのファイルをユーザーが言っているところにすぐに付け加えることができます。認識が完了したら、音声フレームワークから受け取ったテキストから単語「番号」を削除します。それはハッキリと聞こえるが、私は他の解決策があるのか​​分からない。他のオプションは、この配列が数として解釈され、受け入れられないことができるものが含まれているまで待って、あなたがSFSpeechTranscriptionResult.transcriptions[] https://developer.apple.com/documentation/speech/sfspeechrecognitionresult/1648282-transcriptions

内受け取る複数のバリアントを待って、分析することです

UPDATE

最初に利用可能なもの。

+0

これはクールなハックです –

+0

ありがとうございました。私はそのアイデアが気に入っていますが、心配しています。 1つは、あらかじめ書き直したオーディオをライブオーディオとミックスして一致させることができるかどうかはわかりません。私はあなたができると思うが、前にそれを見たことがない。 2つ、もっと重要なのは、私はこれが多くの言語で動作するようにしたいと思っています。そのように動作するかどうかは確かではありません。特に、いくつかの言語(例えばMandarin)では "number ...少なくともそれは私のマンダリンの友達から教えてくれるものです。 – Eric

関連する問題