2

私はMicrosoftの認知サービスを利用しています。私はオーディオ入力があり、複数のスピーカーとその個々のテキストを識別する必要があります。オーディオ入力から複数のスピーカーとそのテキストを特定するにはどうすればよいですか?

私の理解によれば、スピーカー認識APIは異なる個人を識別することができ、Bing Speech APIは音声をテキストに変換することができます。しかし、同時に両方を行うには、手動でオーディオファイルを分割して(一時停止/無音に基づいて)、オーディオストリームを個々のサービスに送信する必要があります。それを行うより良い方法はありますか? AWS Lex/PollyやGoogleのサービスのように切り替える必要がある他のエコシステム

答えて

2

私は現在、同じものを探しています。

ティムバンスとの詳細な比較を作成しました現在の転写サービスプロバイダ。

https://blog.timbunce.org/2016/03/22/semi-automated-podcast-transcription-2/

私は、これは少し時間を節約できます願っています。

関連する問題