私はMicrosoft認知サービスを初めて導入しました。私は完全に音声制御されているWebプロジェクトを構築したい。スピーチコントロールのために私はarytom.jsを使用しています。これは私の使い方のための非常にシンプルで素晴らしいAPIです。それは私のために、TTSとSTTのためにうまく動作します。私が今したいことは、誰が話しているのかを認識し、それをデータベースと比較したいのです。マイクロソフトが開発したスピーカー認識APIが見つかりました。私はすでにAPIキーを手に入れています。登録を行い、記録された音声サンプルをMicrososftサーバーに保存された私の声と比較したいと思います。公式のAPIの コードサンプルは、次のようになります。Microsoft認知サービス - スピーカー認識APIを使用する方法
<!DOCTYPE html>
<html>
<head>
<title>JSSample</title>
<script src="http://ajax.googleapis.com/ajax/libs/jquery/1.9.0/jquery.min.js"></script>
</head>
<body>
<script type="text/javascript">
$(function() {
var params = {
// Request parameters
"shortAudio": "{boolean}",
};
$.ajax({
url: "https://westus.api.cognitive.microsoft.com/spid/v1.0/identify?identificationProfileIds={identificationProfileIds}&" + $.param(params),
beforeSend: function(xhrObj){
// Request headers
xhrObj.setRequestHeader("Content-Type","application/octet-stream");
xhrObj.setRequestHeader("Ocp-Apim-Subscription-Key","{subscription key}");
},
type: "POST",
// Request body
data: "{body}",
})
.done(function(data) {
alert("success");
})
.fail(function() {
alert("error");
});
});
</script>
</body>
</html>
Micrososft「shortAudio」によると:あなたがスピーチ時間の任意の量を使用して識別を開始したい場合、あなたは「shortAudio」パラメータを含める必要があります。識別を行うのに必要なオーディオの推奨30秒を放棄するようにサービスに指示します。これを行うと、1秒から5分以内でオーディオファイルを送信できます。
「Ocp-Apim-Subscription-Key」はヘッダーに入れておく必要がありますが、そのサーバーに.wavファイルを送信するにはどうすればよいですか?誰でも知っていますか、このAPIを使い始める方法。残念ながら、Microsoftはそれについては、実際のドキュメントを持っていない
更新:今、私はバイナリに.wavファイルを変換する必要があること、知っている誰かが呼び出しを行うために、このAPIを使用する方法を、サンプルコードを持ってい
。?ありがとうございます!
この問題の解決法はありませんか? – Mixmarcil
答えを見つけましたか?私も同様の問題に陥っています –