Bing Voice RecognitionのREST APIから短い口述の回答を得ることができました。私の目標は、15-30秒(長い口述モードともいう)よりも長いオーディオファイルに対する応答を得ることです。それでは、私は短い答えを得るために次の操作を行いますされて(私はHTML UWPアプリを開発しています):Microsoft認知サービスのREST音声認識APIから長いディクテーション結果を得るにはどうすればよいですか?
- は
ArrayBuffer
送信 - アクセストークンによる認証
- オーディオファイル(WAV)からの生成します次の設定でREST APIへの音声データ:
var accessToken = [[accessTocken]];
var url = 'https://speech.platform.bing.com/recognize?';
var params = {
'version': '3.0',
'format': 'json',
'locale': 'en-US',
'device.os': 'Windows OS',
'scenarios': 'smd',
'appid': 'D4D52672-91D7-4C74-8AD8-42B1D98141A5',
'requestid': guid(),
'instanceid': guid()
};
var options = {
url: url + $.param(params),
type: "POST",
headers: {
'Authorization': 'Bearer ' + accessToken,
'Content-Type': 'audio/wav; samplerate=16000'
},
data: data
};
return WinJS.xhr(options);
だから、これは動作します!しかし、長い口述のシナリオではどうすればいいですか?
https://github.com/microsoft/Cognitive-Speech-STT-JavascriptではJavaScript GitHubのリポジトリを参照しないでください。これは短い口述のためにのみ機能し、Edgeブラウザでは動作しません。