2017-11-16 25 views
-1

私は、人間と音声認識と音声合成(仮想アバター)を使って対話するプログラムに取り組んでいます。ユーザーはアバターと話すことができます。さらに、プログラムは、ユーザがリモートオペレータと話すことができるリモートモジュールを有する。遠隔オペレータは、アバターを介して話す。スピーチをテキストに変換し、テキストをスピーチに変換する

ユーザーがリモートオペレータと話すときに、私たちが現在行っていることは、リモートモジュールのテキストにスピーチを変換した後、メインモジュールにテキストを送り、テキストをスピーチに、スピードをスピーチに変換します。しかし、このメッセージが長くなると、大きな遅延が発生します(すべての音声を認識した後で、テキストを送信して音声に変換することができます)。したがって、これはユーザと遠隔オペレータとの間の良好な会話を可能にしない(ユーザは、他の人が話していることを認識してはならない、それはアバターがユーザと話しているように見えるはずであり、従って大きな待ち時間であってはならない)。

これをC#.NETで実装することは可能ですか?誰もがこれを達成するためのアイデアを持っていますか?

答えて

1

私はMicrosoft認知サービスをチェックアウトします。

音声クライアントライブラリ:音声認識で サポート、より高度な機能は、そのようなリアルタイムでの中間結果として

https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home

は、彼らはあなたが探している結果をリアルタイムで提供するネイティブクライアントに提供します、長いオーディオストリーム(最大10分)、および連続認識が含まれます。 あなたの好みの言語でシンプルで慣用的なAPIを提供してください。 低レベルの通信の詳細を非表示にします。現在

、以下のスピーチクライアントライブラリが用意されています

  • C#デスクトップライブラリ
  • C#サービスライブラリ
  • Android用のJavaScriptライブラリー
  • Javaライブラリ
  • のObjective-CライブラリiOSの場合
https://github.com/Azure-Samples/Cognitive-Speech-STT-Windows

出典:https://docs.microsoft.com/en-us/azure/cognitive-services/speech/getstarted/getstartedclientlibraries

個の

C#デスクトップライブラリサンプルはで入手できます。

関連する問題