2016-08-17 29 views
2

スポーツユーザー向けのストリーミングビデオ(HLS)の字幕を生成するために[email protected]^0.7.5を使用しています。Watson Nodejs Speech To Text - train言語モデル

さらに、私は言語モデルを訓練することができました。

私は訓練された言語モデルにrecognElementとcustomization_idを使用したいと思います。しかし、私は2つの問題を抱えて:

1)私はrecognizeElementは私が使用していますライブラリの呼び出しが

videoProps.stream = WatsonSpeechToText.recognizeElement({ 
     element: myMediaElement, 
     token: videoProps.ctx.token, 
     muteSource: false, 
     autoPlay: false, 
     model:videoProps.ctx.currentModel, 
     timestamps: true, 
     profanity_filter: true, 
     inactivity_timeout: -1, 
     continuous: true 
    }) 
    .pipe(new WatsonSpeechToText.FormatStream()); 

ある

を廃止されていると思いますがしかし、私は、そのワトソン - スピーチ0.19.3気づきましたAPIが削除されました。今代替がありますか?

また、訓練したカスタム言語モデルを使用したいと思います。このAPIは、次の呼び出しを含むように更新されますか?

element: myMediaElement, 
      token: videoProps.ctx.token, 
      muteSource: false, 
      autoPlay: false, 
      customization_id:videoProps.ctx.currentModel.replace('custom:',''), 
      timestamps: true, 
      profanity_filter: true, 
      inactivity_timeout: -1, 
      continuous: true 

2)APIがcustomization_idをサポートしているとは思わない。

recognisation-stream.jsを見ているうちに、OPENING_MESSAGE_PARAMS_ALLOWEDまたはQUERY_PARAMS_ALLOWEDがcustomization_idをサポートしていることに気付きました。

私は特定のソースをプルダウンして変更を加えることができますが、再び要素がなくなったことを認識します。

ありがとう、 Aaron。

答えて

1

私はあなたにいくつかの他の詳細を記載したメールを送ったが、私は先に行くと、ケースには、ここで重要な部分をコピーします誰にも同じ質問があります。

:いくつかの理由のために

私はremoved recognizeElement() in v0.15

  • 転写品質を削減 - オーディオが与えられたソース

  • 矛盾した出力を転写する他の方法よりも低品質のトランスクリプションにつながった余分な変換手順のカップルを通過 - 原因仲間に生のオーディオストリームは再生ごとにわずかに異なり、場合によっては微妙に異なるトランスクリプションにつながります。これにより、STTサービスが矛盾しているように見えました。

  • 一時停止/早送り/巻き戻しの奇妙なこと - 音声はスピーカーから出てくる音声のためであり、巻き戻しは繰り返し単語を取得し、一時停止は単語を半分に分割するなどを意味します。拡張された休止または無音の期間はまた、転写タイムアウトを引き起こす可能性がある。

私の推奨される解決策は、抽出した音声を変換し、その後、WebVVT formatに結果を再フォーマットするffmpegを使用して、転写サーバー側を実行し、ビデオにsubtitles trackとしてそれらを結合することです。それはより多くの作業ですが、大幅に優れた結果が得られます。

私はWebVVTを出力形式として追加することについてスピーチチームに要請しましたが、これを簡素化するためにWebVVTを追加しましたが、それが起こるかどうかはわかりません。

更新:あなたは本当にSDKの現在のリリースで古いrecognizeElement()メソッドを使用したい場合は、私は例として、それを持ち帰っ:https://github.com/watson-developer-cloud/speech-javascript-sdk/tree/master/examples/static/audio-video-deprecated

を2つ目の質問に答えるために、customization_idは現在のものとして受け入れていますv0.20。ただし、パブリックSTTサービスは現在、カスタマイズをサポートしていません。

関連する問題