2016-07-13 10 views
0

私は、Httpライブストリーミングソースのクローズドキャプションを提供するためにBluemix Speech to Text APIを使用する実用的なアプリケーションを持っています。しかし、tsファイルからの音を構文解析するのにいくらか遅延があります。私のコードは次の通りです:HLSを使用したbluemixリアルタイム音声からテキストへ

videoProps.stream = WatsonSpeechToText.recognizeElement({ 
    element: myMediaElement, 
    token: videoProps.ctx.token, 
    muteSource: false, 
    autoPlay: false, 
    model:videoProps.ctx.currentModel, 
    timestamps: true, 
    profanity_filter: true, 
    inactivity_timeout: -1, 
    continuous: true 
}) 
.pipe(new WatsonSpeechToText.FormatStream()); 

videoProps.stream.on("result", function(result) { 
    //do something 
} 

もっと速くリアルタイムに近づくAPIがありますか?

おかげでこのCloudASRようカルディに基づいて

+0

使用しているモデルこんにちはアーロン、 で、これらのモデルとドキュメントのその特性についての詳細を見ることができますか?英語のブロードバンドモデル?速度は録音の質に大きく依存します。あなたが得ているリアルタイム要素は何ですか(RTF =デコード時間/オーディオ時間)。どのオーディオ形式ですか?デモを介してファイルを送ろうとしてください。私が話すとき、私は常にリアルタイム認識よりも速くなります。 Dani –

答えて

0

オープンソース実装がリアルタイムよりもはるかに高速に実行することができ、あなたはまた、チューニング速度と精度の間でバランスをとるためのシステムは、..あなたはしかし、あなたのサーバークラウドを維持する必要がありますすることができます。

+0

データのプライバシーも懸念されるかもしれません... –

+0

これをあなた自身のクラウドで実行するとどんな懸念がありますか? IBMにデータを送信するよりもはるかに優れています。 –

0

ワトソンのSpeech-to-TextサービスAPIは、さまざまなパフォーマンス特性を持つさまざまな入力モデルを提供します。オーディオの品質にもよりますが、BroadbandModelはリアルタイムよりもやや高速ですが、NarrowBandはリアルタイムよりもわずかに遅いです。どのモデルを使用していますか? BroadbandModelをまだ使用していない場合は、オーディオがリアルタイムでストリーミングされていることを想定して、キャプションアプリケーションに適しているはずですので、これを試してみてください。

あなたはhttp://www.ibm.com/watson/developercloud/doc/speech-to-text/input.shtml#models

関連する問題