Microsoft認知サービスのREST音声認識APIから長いディクテーション結果を得るにはどうすればよいですか？

Bing Voice RecognitionのREST APIから短い口述の回答を得ることができました。私の目標は、15-30秒（長い口述モードともいう）よりも長いオーディオファイルに対する応答を得ることです。それでは、私は短い答えを得るために次の操作を行いますされて（私はHTML UWPアプリを開発しています）：Microsoft認知サービスのREST音声認識APIから長いディクテーション結果を得るにはどうすればよいですか？

はArrayBuffer送信
オーディオファイル（WAV）からの生成します次の設定でREST APIへの音声データ：

var accessToken = [[accessTocken]]; 
var url = 'https://speech.platform.bing.com/recognize?'; 
var params = { 
    'version': '3.0', 
    'format': 'json', 
    'locale': 'en-US', 
    'device.os': 'Windows OS', 
    'scenarios': 'smd', 
    'appid': 'D4D52672-91D7-4C74-8AD8-42B1D98141A5', 
    'requestid': guid(), 
    'instanceid': guid() 
}; 
var options = { 
    url: url + $.param(params), 
    type: "POST", 
    headers: { 
     'Authorization': 'Bearer ' + accessToken, 
     'Content-Type': 'audio/wav; samplerate=16000' 
    }, 
    data: data 
}; 
return WinJS.xhr(options);

だから、これは動作します！しかし、長い口述のシナリオではどうすればいいですか？

https://github.com/microsoft/Cognitive-Speech-STT-JavascriptではJavaScript GitHubのリポジトリを参照しないでください。これは短い口述のためにのみ機能し、Edgeブラウザでは動作しません。

出典

2016-07-11 f_up

APIのドキュメントから：

アプリケーションが順番に開始、要求の終了を決定するために、サービスによって使用され発言の開始と終了を決定するために、オーディオエンドポイントなければなりません。いずれかのリクエストでオーディオを10秒以上アップロードすることはできず、合計リクエスト時間は 14秒を超えることはできません。

参考： https://www.microsoft.com/cognitive-services/en-us/Speech-api/documentation/API-Reference-REST/BingVoiceRecognition

たぶん、あなたは貴様モードを使用するようにクライアントライブラリを実装する必要があります。

ShortPhraseモード：最大15秒の発声。データがサーバにとして送信されると、クライアントは複数の部分的な結果を受け取り、最終的な複数の最善の選択結果を受け取ります。

LongDictationモード：最大2分の長発言。データがサーバーにを送られると、クライアントは、サーバが文ポーズを示しているに基づいて、複数の部分的な結果と複数の最終結果を受け取ることになります。

意向検出：サーバーは、音声入力についての追加構造化された情報を返します。インテントを使用するには、最初にモデルをトレーニングする必要があります。詳細はこちらをご覧ください。

参考： https://www.microsoft.com/cognitive-services/en-us/Speech-api/documentation/GetStarted/GetStartedCSharpDesktop

出典

2016-09-19 17:08:16 HolloW

Microsoft認知サービスのREST音声認識APIから長いディクテーション結果を得るにはどうすればよいですか？

答えて

関連する問題