2016-10-07 10 views
2

Microsoft認知スピーカー認識APIを使用して、スピーカーのダイアリゼーションの問題を解決するアプリケーションを構築しようとしています。Microsoft Cognitiveによるリアルタイムスピーカー認識

sample projectを見て、APIs documentationを読むと、私は、サービスにwavファイルを送信して、それをリアルタイムで行うという目標に反して認識を行うべきだと理解しました。

誰かがそれについていくつかの研究をしましたか?それらのAPIを使用して実現可能か、別の道を探すべきでしょうか?

答えて

0

GoogleにスピーチAPIがあるように、ストリームアプローチはありません。新しいプロファイルを登録するには、30秒を要する必要はありません。私の最近の練習では〜10秒間成功しました。 MS APIの中心的な問題は、複数のスピーカーの制限です。別々のオーディオトラックに分割する方法を自分で見つけなければなりません。それ以外の場合は、最初に知られている音声を認識します。

1

登録には30秒間のデータが必要です。ユーザープロファイルを取得すると、1秒のサンプルからユーザーを特定できるので、非常にわずかな遅延でほとんどリアルタイムで行うことができます。これを使用するには、shortAudio parameterを設定する必要があります。身分証明書がそれよりも速く動作するとは想像もしません。

異なるものが必要な場合は、Kaldiのようなオープンソースの音声ツールキットがあり、より柔軟なことができます。

関連する問題