2017-01-23 24 views
2

私はMicrosoft認知サービスを初めて導入しました。私は完全に音声制御されているWebプロジェクトを構築したい。スピーチコントロールのために私はarytom.jsを使用しています。これは私の使い方のための非常にシンプルで素晴らしいAPIです。それは私のために、TTSとSTTのためにうまく動作します。私が今したいことは、誰が話しているのかを認識し、それをデータベースと比較したいのです。マイクロソフトが開発したスピーカー認識APIが見つかりました。私はすでにAPIキーを手に入れています。登録を行い、記録された音声サンプルをMicrososftサーバーに保存された私の声と比較したいと思います。公式のAPIの コードサンプルは、次のようになります。Microsoft認知サービス - スピーカー認識APIを使用する方法

<!DOCTYPE html> 
<html> 
<head> 
    <title>JSSample</title> 
    <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.9.0/jquery.min.js"></script> 
</head> 
<body> 

<script type="text/javascript"> 
    $(function() { 
     var params = { 
      // Request parameters 
      "shortAudio": "{boolean}", 
     }; 

     $.ajax({ 
      url: "https://westus.api.cognitive.microsoft.com/spid/v1.0/identify?identificationProfileIds={identificationProfileIds}&" + $.param(params), 
      beforeSend: function(xhrObj){ 
       // Request headers 
       xhrObj.setRequestHeader("Content-Type","application/octet-stream"); 
       xhrObj.setRequestHeader("Ocp-Apim-Subscription-Key","{subscription key}"); 
      }, 
      type: "POST", 
      // Request body 
      data: "{body}", 
     }) 
     .done(function(data) { 
      alert("success"); 
     }) 
     .fail(function() { 
      alert("error"); 
     }); 
    }); 
</script> 
</body> 
</html> 

Micrososft「shortAudio」によると:あなたがスピーチ時間の任意の量を使用して識別を開始したい場合、あなたは「shortAudio」パラメータを含める必要があります。識別を行うのに必要なオーディオの推奨30秒を放棄するようにサービスに指示します。これを行うと、1秒から5分以内でオーディオファイルを送信できます。

「Ocp-Apim-Subscription-Key」はヘッダーに入れておく必要がありますが、そのサーバーに.wavファイルを送信するにはどうすればよいですか?誰でも知っていますか、このAPIを使い始める方法。残念ながら、Microsoftはそれについては、実際のドキュメントを持っていない

更新:今、私はバイナリに.wavファイルを変換する必要があること、知っている誰かが呼び出しを行うために、このAPIを使用する方法を、サンプルコードを持ってい

。?

ありがとうございます!

+0

この問題の解決法はありませんか? – Mixmarcil

+0

答えを見つけましたか?私も同様の問題に陥っています –

答えて

0

バイナリデータは、特定の形式のWAVファイルである必要があります。

  • コンテナ:WAV
  • エンコード:PCM
  • レート:16K
  • サンプルフォーマット:16ビット
  • チャンネル:モノラル

あなたは実施例のWebページを超えるチェックアウトすることができますここでは、適切なビットレートとサンプルレートを得るために、recorderjsの変更されたコピーを使用しました(Speaker Recognition APIのサンプルページをリバースエンジニアリングして変更しました)WAV:

https://rposbo.github.io/speaker-recognition-api/

関連する問題