私はCognitive Services(Project Oxford)Bing Speech RecognitionサービスにMicrosoftのC#APIを使用しています。具体的には、Microsoft.ProjectOxford.SpeechRecognition-x64バージョン0.4.10.2を使用しています。音声認識結果を発話に関連づける確実な方法はありますか?
私はSendAudio
とEndAudio
メソッドを使用してDataRecognitionClient
にオーディオを送信し、OnResponseReceived
イベントを通じて認識仮説の最終セットを待ちます。私が取り組んでいる問題は、2つ以上の認識要求がある可能性があり、OnResponseReceived
ハンドラに渡されたオブジェクトには、どの要求が応答であるかを示す情報が含まれていないということです。
- 人が発話Aを呼び出し、何かを言うと、私は
SendAudio
経由で送信し、それらが話し終わったら、次にEndAudio
を呼び出します。はここで実際に何度も私に起こった例です。
OnResponseReceived
発言Aのイベントを得るのを待っている間、その人は何か別の言葉を発声Bと呼んでいます。SendAudio
で送信し、話し終わったらEndAudio
に電話してください。私はまだOnResponseReceived
イベントを取得していません。- 私は最終的に私の最初の
OnResponseReceived
イベントを取得します。 - 私は2番目の
OnResponseReceived
イベントを取得します。
どのようにして応答を発声に正しく関連付けることができますか?
発言Aと発言Bを送信すると、まず発声Aの応答が得られるという発注保証はありますか?私はドキュメンテーションのその保証を見たことがありません。
、ありません毎回スピーチのテキストが正確に正しいことを保証する方法はありますか? – EJoshuaS
@EJoshuaSいいえ、私はOPが正しい応答が正しい音声入力と相関することを確実にする方法を知りたいと考えています。問題は、どの応答がどの音声と一緒に 'onResponseReceived'ハンドラで調整されているのかわからないことです。 –