Microsoft認知スピーカー認識APIを使用して、スピーカーのダイアリゼーションの問題を解決するアプリケーションを構築しようとしています。Microsoft Cognitiveによるリアルタイムスピーカー認識
sample projectを見て、APIs documentationを読むと、私は、サービスにwavファイルを送信して、それをリアルタイムで行うという目標に反して認識を行うべきだと理解しました。
誰かがそれについていくつかの研究をしましたか?それらのAPIを使用して実現可能か、別の道を探すべきでしょうか?