2016-10-06 10 views
1

誰が音声認識アプリケーションを作成するためのtwilioとニュアンスASR(https://developer.nuance.com/public/index.php?task=memberServices)を使用した経験を持っていますか?\TwilioとニュアンスASRの可能性

私はタイムラグが、それは実現可能なことはないだろうと思っています。たとえば、ユーザーに何かを言い、ニュアンスにそれを認識させて返信を促したら、私のシステムでそれを見て、それ以上の措置を取るのは時間がかかりすぎるということです。

  1. ユーザーからのキャプチャーオーディオ、twilioからURLを記録
  2. テイク音声、
  3. をニュアンスする音声ファイルを渡すその後
  4. は私のデータに対して言葉を一致させるニュアンスからの転写を取る
  5. は、このすべてがfairl起こるべき適切な処置

を取ります速いですが、発信者にとって受け入れられるほど速いですか?

任意の考えは 素晴らしいことだあなたに

PSありがとうございました。 Nuanceというタグを作成しようとしましたが、許可されていませんでした。

答えて

2

私は現在、リアルタイムの翻訳を提供する通信プラットフォームに取り組んでいます。私はTwilioを私たちの自動プラットフォームプロバイダとして使用しています。翻訳された音声通話機能。 NuanceのASR技術は平均的なものであり、低帯域オーディオでは絶対に使用できません。 Google Cloud Speech APIをご覧ください。私はそれで非常に良い結果を達成しました。 ASRは約3〜5秒かかります。

+0

ありがとう、 結果が処理されるまでに3〜5秒で何ができますか?あなたは保留音や音楽を演奏していますか? – stormyguy

0

Nuance Recognizerはローバンドオーディオで動作します - 実際、電話環境で使用するように設計されていますが、これまでのコメントは間違っています。しかし、問題は部分的な認識のためにタイムリーにTwilioからRecognizerにオーディオストリームを戻すことです。通常、Nuance RecognizerはMRCPを使用したIVRプラットフォームと統合しますが、Twilioはこのプロトコルをサポートしているとは思いません。したがって、サードパーティのエンジンを使用している場合は、フレーズを録音してASRインスタンスに送信(転送)し、応答を処理して結果をTwilioに返す必要があります。これは、ASRエンジンが部分的に処理できないためオーディオ。問題の簡単な例 - 誰かが10秒間話している場合、結果はTwilioに10秒間(録音時間)+転送時間+処理時間+ Twilioへの戻り時間に戻りません。

関連する問題