私は、コールセンターの顧客に応答した人とコールを呼び出した顧客との間の実際の会話を含むオーディオファイルに「Bing Speech To Text API」を試みています彼の疑問を解決するための中心。したがって、これらのオーディオには2人の話しがあり、顧客がサポートからの応答を待っているときに長い沈黙期間があることがあります。これらのオーディオの長さは5〜10分です。非常に間違ったテキストを返すBing Speech to Text API
私の疑いがある:マイクロソフト認知サービスを使用して、テキストにそのようなオーディオを変換するための最良のaproachです
何?
Bing Speech To Text以外に、どのAPIを使用する必要がありますか?
Bing Speech To Textに送信する前に、オーディオをカットまたは変換する必要がありますか?
Bing Speech to text APIがテキストを返すため、音声コンテンツとは非常に非常に非常に非常に異なっています。使用することは不可能です。しかし、もちろん、私はいくつかの間違いをしていると思います。
このようなオーディオファイルを扱う最良の戦略を教えてください。
私はどんな助けでも非常にうれしいです。 ベストレガード、
コードを共有できますか? – Mehdi
非圧縮のpcmを送信する必要がある間に、圧縮されたオーディオを送信しているような、入力データのフォーマットが間違っている可能性があります。そのようなタスクのためには、Kaldiのような特殊なAPIを試してみるのが良いでしょう。 –