オーディオ入力から複数のスピーカーとそのテキストを特定するにはどうすればよいですか？

私はMicrosoftの認知サービスを利用しています。私はオーディオ入力があり、複数のスピーカーとその個々のテキストを識別する必要があります。オーディオ入力から複数のスピーカーとそのテキストを特定するにはどうすればよいですか？

私の理解によれば、スピーカー認識APIは異なる個人を識別することができ、Bing Speech APIは音声をテキストに変換することができます。しかし、同時に両方を行うには、手動でオーディオファイルを分割して（一時停止/無音に基づいて）、オーディオストリームを個々のサービスに送信する必要があります。それを行うより良い方法はありますか？ AWS Lex/PollyやGoogleのサービスのように切り替える必要がある他のエコシステム

出典

2017-01-31 blackspacer