0

Watson Text to Speechサービスを使用して、MP3 & WAV形式のオーディオファイルを生成しています。これらのオーディオのデフォルトのサンプリング周波数はどれくらいですか? API(MP3 & WAVの場合)に当たっている間にサンプリングレートを指定する方法はありますか? Watson Speech to Textでは、ブロードバンドモデルに16 kHzの音声を使用することを推奨しています。IBM Watson Text to Speechサービスによって生成される音声のサンプリング周波数はどのくらいですか?

答えて

0

デフォルトのサンプリングレートは22,050 Hzで、レートパラメータを使用して指定します。私が見ることができるドキュメントから、それはオプションのパラメタです。 FYR-https://console.bluemix.net/docs/services/text-to-speech/http.html#format

+0

ご返信ありがとうございます。テキストへのスピーチは、22,050 Hzの周波数オーディオに対して最大の精度を与えると言えますか?私は44100 Hzの周波数で録音されたステレオ品質のオーディオを試しました。その結果は間違っています。しかし、Text to Speech(デフォルトの22050 Hzの周波数を使用)を使用して生成されたスピーチでは、正確な結果が得られます。 – ShwetaJ

+0

私は正確さについてはわかりませんが、オーディオ/ wav; rate = 44100のように44100でレートパラメータを使用しようとしましたか? – Varun

+0

はい。 rateパラメータはSpeech to Textでは機能しません。それでも間違った結果が出ます。 – ShwetaJ

0

これらの情報は、ドキュメントで簡単に見つかります。

TextTo音声ボイスは22050 Hzで作成されますが、異なる出力サンプリングレートを強制することができますが、サービスは結果を提供する前にのみダウン/アップサンプリングします。

SpeechToTextは一般に、BroadBandでは16000 Hz、狭帯域では8000 Hzをサポートします。最良のことは、ヘッダー、フラック、wav(pcmではない)にサンプリングレート情報を持つオーディオをコンテナ内で使用することです。 SpeechToTextに関しては、オーディオが実際に関連スペクトルの情報を持つことが重要であるため、16kHzに8kHzの電話通信をアップサンプリングしてブロードバンドモデルに送信することはできません。

関連する問題