0

以下のGitHubリポジトリを使用してテキストから音声を生成するサンプルアプリケーションに従ってきました。話速Microsoft Bing Speech API - 音声テキスト

https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/Samples-Http/CSharp

私のアプリケーションは唯一の問題は、各単語の後にレートまたはブレーク/一時停止を話すで細かい実行されています。

入力テキスト:Y U 7 F S D 2 3電子

後、私が使用しているサンプルSSMLです:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-IN"><voice xml:lang="en-IN" name="Microsoft Server Speech Text to Speech Voice (en-IN, Ravi, Apollo)">y u 7 f s d 2 3 e</voice></speak>

を私はすべてのアルファベットの後に一時停止します。このオーディオを使用して、オーディオモードでキャプチャテキストを取得しています。

正しいアプローチを提案してください。

P.S:コピー貼り付けでコード全体を繰り返す必要はありません。 (GITのサンプルを使用して)

私は下のリンクからのコメントの中で、会話を続けています。

https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home

+0

あなたは試しましたか?各単語/手紙の後に? –

+0

私はちょうど今試しました " ( – Pratik

答えて

2

この - > "Y"。 "u"。 "7"。 "f"。 "s"。 "d"。 "2"。 "3"。 "e"。 < - これは、ビン音声Webページのテストで動作します。 あなたにとってもうまくいくはずです。 ここにはSSMLがあります:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US"> 
    <voice xml:lang="en-US" name="Microsoft Server Speech Text to Speech Voice (en-US, ZiraRUS)">&quot;y&quot;. &quot;u&quot;. &quot;7&quot;. &quot;f&quot;. &quot;s&quot;. &quot;d&quot;. &quot;2&quot;. &quot;3&quot;. &quot;e&quot;. 
    </voice> 
</speak> 
+0

)これは目的を解決しました。同じことをしている\ n "改行"も試しました。あなたの助けに感謝します。 – Pratik

関連する問題