IBM Watsonを使用すると、スピーカー認識(Person 1、Person 2)などを行うことができます。スピーチの転写:狭帯域または広帯域?
これは狭帯域モデルでのみ機能します。正確な転写産物を犠牲にするのではなく、涼しいです。狭帯域モデルを選択すると正確さが低下するのですか?私は映画の対話を書き写しています。
IBM Watsonを使用すると、スピーカー認識(Person 1、Person 2)などを行うことができます。スピーチの転写:狭帯域または広帯域?
これは狭帯域モデルでのみ機能します。正確な転写産物を犠牲にするのではなく、涼しいです。狭帯域モデルを選択すると正確さが低下するのですか?私は映画の対話を書き写しています。
スピーカーの認識が必要な場合は、ナローバンドが唯一のオプションです。
スピーカーのラベルが備わっていますが、現在、米国英語、スペイン語、および日本語狭帯域モデルのみ のために利用可能である ベータ版の機能です。
今後ブロードバンドモデルに展開される可能性があります。その場合、ブロードバンドモデルはムービーダイアログの方が適しています。
ナローバンドの精度が大幅に低下するとは思わないでしょう。これに対して主なノックは、同じ品質の結果を出すためには(ワトソンのサービスによって)より多くの作業が必要であるということです。
いつでも両方の方法で(speaker_labelsを使用せずに)クリップを転写し、正確さが異なる場合は、結果を比較して自分自身で確認することができます。