Microsoft認知サービス - スピーカー認識APIを使用する方法

私はMicrosoft認知サービスを初めて導入しました。私は完全に音声制御されているWebプロジェクトを構築したい。スピーチコントロールのために私はarytom.jsを使用しています。これは私の使い方のための非常にシンプルで素晴らしいAPIです。それは私のために、TTSとSTTのためにうまく動作します。私が今したいことは、誰が話しているのかを認識し、それをデータベースと比較したいのです。マイクロソフトが開発したスピーカー認識APIが見つかりました。私はすでにAPIキーを手に入れています。登録を行い、記録された音声サンプルをMicrososftサーバーに保存された私の声と比較したいと思います。公式のAPIのコードサンプルは、次のようになります。Microsoft認知サービス - スピーカー認識APIを使用する方法

<!DOCTYPE html> 
<html> 
<head> 
    <title>JSSample</title> 
    <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.9.0/jquery.min.js"></script> 
</head> 
<body> 

<script type="text/javascript"> 
    $(function() { 
     var params = { 
      // Request parameters 
      "shortAudio": "{boolean}", 
     }; 

     $.ajax({ 
      url: "https://westus.api.cognitive.microsoft.com/spid/v1.0/identify?identificationProfileIds={identificationProfileIds}&" + $.param(params), 
      beforeSend: function(xhrObj){ 
       // Request headers 
       xhrObj.setRequestHeader("Content-Type","application/octet-stream"); 
       xhrObj.setRequestHeader("Ocp-Apim-Subscription-Key","{subscription key}"); 
      }, 
      type: "POST", 
      // Request body 
      data: "{body}", 
     }) 
     .done(function(data) { 
      alert("success"); 
     }) 
     .fail(function() { 
      alert("error"); 
     }); 
    }); 
</script> 
</body> 
</html>

Micrososft「shortAudio」によると：あなたがスピーチ時間の任意の量を使用して識別を開始したい場合、あなたは「shortAudio」パラメータを含める必要があります。識別を行うのに必要なオーディオの推奨30秒を放棄するようにサービスに指示します。これを行うと、1秒から5分以内でオーディオファイルを送信できます。

「Ocp-Apim-Subscription-Key」はヘッダーに入れておく必要がありますが、そのサーバーに.wavファイルを送信するにはどうすればよいですか？誰でも知っていますか、このAPIを使い始める方法。残念ながら、Microsoftはそれについては、実際のドキュメントを持っていない

更新：今、私はバイナリに.wavファイルを変換する必要があること、知っている誰かが呼び出しを行うために、このAPIを使用する方法を、サンプルコードを持ってい

。？

ありがとうございます！

出典

2017-01-23 Mixmarcil

この問題の解決法はありませんか？ – Mixmarcil

答えを見つけましたか？私も同様の問題に陥っています –

バイナリデータは、特定の形式のWAVファイルである必要があります。

コンテナ：WAV
エンコード：PCM
レート：16K
サンプルフォーマット：16ビット
チャンネル：モノラル

あなたは実施例のWebページを超えるチェックアウトすることができますここでは、適切なビットレートとサンプルレートを得るために、recorderjsの変更されたコピーを使用しました（Speaker Recognition APIのサンプルページをリバースエンジニアリングして変更しました）WAV：

https://rposbo.github.io/speaker-recognition-api/

出典

2017-11-21 14:33:05 rposbo

Microsoft認知サービス - スピーカー認識APIを使用する方法

答えて

関連する問題