以下のGitHubリポジトリを使用してテキストから音声を生成するサンプルアプリケーションに従ってきました。話速Microsoft Bing Speech API - 音声テキスト
https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/Samples-Http/CSharp
私のアプリケーションは唯一の問題は、各単語の後にレートまたはブレーク/一時停止を話すで細かい実行されています。
入力テキスト:Y U 7 F S D 2 3電子
後、私が使用しているサンプルSSMLです:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-IN"><voice xml:lang="en-IN" name="Microsoft Server Speech Text to Speech Voice (en-IN, Ravi, Apollo)">y u 7 f s d 2 3 e</voice></speak>
を私はすべてのアルファベットの後に一時停止します。このオーディオを使用して、オーディオモードでキャプチャテキストを取得しています。
正しいアプローチを提案してください。
P.S:コピー貼り付けでコード全体を繰り返す必要はありません。 (GITのサンプルを使用して)
私は下のリンクからのコメントの中で、会話を続けています。
https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home
あなたは試しましたか?各単語/手紙の後に? –
私はちょうど今試しました " ( – Pratik