私は、Httpライブストリーミングソースのクローズドキャプションを提供するためにBluemix Speech to Text APIを使用する実用的なアプリケーションを持っています。しかし、tsファイルからの音を構文解析するのにいくらか遅延があります。私のコードは次の通りです:HLSを使用したbluemixリアルタイム音声からテキストへ
videoProps.stream = WatsonSpeechToText.recognizeElement({
element: myMediaElement,
token: videoProps.ctx.token,
muteSource: false,
autoPlay: false,
model:videoProps.ctx.currentModel,
timestamps: true,
profanity_filter: true,
inactivity_timeout: -1,
continuous: true
})
.pipe(new WatsonSpeechToText.FormatStream());
videoProps.stream.on("result", function(result) {
//do something
}
もっと速くリアルタイムに近づくAPIがありますか?
おかげでこのCloudASRようカルディに基づいて
使用しているモデルこんにちはアーロン、 で、これらのモデルとドキュメントのその特性についての詳細を見ることができますか?英語のブロードバンドモデル?速度は録音の質に大きく依存します。あなたが得ているリアルタイム要素は何ですか(RTF =デコード時間/オーディオ時間)。どのオーディオ形式ですか?デモを介してファイルを送ろうとしてください。私が話すとき、私は常にリアルタイム認識よりも速くなります。 Dani –