私はMicrosoftの認知サービスを利用しています。私はオーディオ入力があり、複数のスピーカーとその個々のテキストを識別する必要があります。オーディオ入力から複数のスピーカーとそのテキストを特定するにはどうすればよいですか?
私の理解によれば、スピーカー認識APIは異なる個人を識別することができ、Bing Speech APIは音声をテキストに変換することができます。しかし、同時に両方を行うには、手動でオーディオファイルを分割して(一時停止/無音に基づいて)、オーディオストリームを個々のサービスに送信する必要があります。それを行うより良い方法はありますか? AWS Lex/PollyやGoogleのサービスのように切り替える必要がある他のエコシステム