私は、オーディオを受信してテキストを取得するためにBing Recognition APIに送信するアプリケーションを作成しています。 私はサービスライブラリを使用し、wavファイルで動作します。そこで私は自分のストリームクラスを書いて、マイクやネットワーク(RTP)からオーディオを受け取って認識APIに送りました。オーディオストリームの前にWAVヘッダーを追加すると、数秒間動作します。Bing Speech Recognitionにリアルタイムのデータを送信することは可能ですか?
デバッグでは、認識APIがオーディオソース(16kサンプル、16ビット、モノラル)で満たされているよりも速くフォームストリームを読み取ることが示されています。
私の質問です:リアルタイム(連続)オーディオストリームで認識APIを使用する方法はありますか?
マイククライアントの使用例がありますが、マイクのみで動作するため、さまざまなソースが必要です。
リアルタイムで音声を送信し、誰かが話すときに結果を戻したいだけですか?または、任意の長いオーディオストリームを送信したいですか?たぶんマイクの例にリンクすれば、あなたの質問はより明確になります。 –
私はリアルタイムで音声を送り、話し中に部分的な結果を得たいです。基本的にサンプルフォルダには[マイクサンプル](https://github.com/Microsoft/Cognitive-Speech-STT-Windows)がありますが、さまざまなソース(RTPなど)に対応しています。しかし、私は解決策を見つけてほしい(もう少しテストをしなければならない)。それがうまくいくならば、私はその説明で答えを作ります。 –