2016-07-11 5 views
1

Bing Voice RecognitionのREST APIから短い口述の回答を得ることができました。私の目標は、15-30秒(長い口述モードともいう)よりも長いオーディオファイルに対する応答を得ることです。それでは、私は短い答えを得るために次の操作を行いますされて(私はHTML UWPアプリを開発しています):Microsoft認知サービスのREST音声認識APIから長いディクテーション結果を得るにはどうすればよいですか?

  1. ArrayBuffer送信
  2. アクセストークンによる認証
  3. オーディオファイル(WAV)からの生成します次の設定でREST APIへの音声データ:
var accessToken = [[accessTocken]]; 
var url = 'https://speech.platform.bing.com/recognize?'; 
var params = { 
    'version': '3.0', 
    'format': 'json', 
    'locale': 'en-US', 
    'device.os': 'Windows OS', 
    'scenarios': 'smd', 
    'appid': 'D4D52672-91D7-4C74-8AD8-42B1D98141A5', 
    'requestid': guid(), 
    'instanceid': guid() 
}; 
var options = { 
    url: url + $.param(params), 
    type: "POST", 
    headers: { 
     'Authorization': 'Bearer ' + accessToken, 
     'Content-Type': 'audio/wav; samplerate=16000' 
    }, 
    data: data 
}; 
return WinJS.xhr(options); 

だから、これは動作します!しかし、長い口述のシナリオではどうすればいいですか?

https://github.com/microsoft/Cognitive-Speech-STT-JavascriptではJavaScript GitHubのリポジトリを参照しないでください。これは短い口述のためにのみ機能し、Edgeブラウザでは動作しません。

答えて

1

APIのドキュメントから:

アプリケーションが順番に開始 、要求の終了を決定するために、サービスによって使用され 発言の開始と終了を決定するために、オーディオエンドポイントなければなりません。いずれかのリクエストで オーディオを10秒以上アップロードすることはできず、合計リクエスト時間は 14秒を超えることはできません。

参考: https://www.microsoft.com/cognitive-services/en-us/Speech-api/documentation/API-Reference-REST/BingVoiceRecognition

たぶん、あなたは貴様モードを使用するようにクライアントライブラリを実装する必要があります。

ShortPhraseモード:最大15秒の発声。データがサーバに として送信されると、クライアントは複数の部分的な結果を受け取り、 最終的な複数の最善の選択結果を受け取ります。

LongDictationモード:最大2分の長発言。データがサーバーに を送られると、クライアントは、サーバが文 ポーズを示しているに基づいて、複数の部分的な結果と 複数の最終結果を受け取ることになります。

意向検出:サーバーは、音声入力についての追加構造化された情報 を返します。インテントを使用するには、最初に モデルをトレーニングする必要があります。詳細はこちらをご覧ください。

参考: https://www.microsoft.com/cognitive-services/en-us/Speech-api/documentation/GetStarted/GetStartedCSharpDesktop

関連する問題