1

英数字の文字列を認識するためにSpeech to Text(IBM Voice Gateway IVRアプリケーション)を取得しようとすると、STTが個々の文字と数字だけを認識するようにカスタムの文法やエンティティを作成できるかどうかは疑問です全部。たとえば、典型的な文字列は20Y0H8Cです。ワトソンは "2"の代わりに "2"のような言葉と数字を返します。数字の文字列は正常に動作します。私は、文字認識が典型的なASRでは問題であることを認識していますが、私はWatsonがその課題に対応することを望んでいます。私は、英数字のシステムエンティティがないことに気づいた。どんな提案も大変ありがとうございます。IBMスピーチからテキストへ英数字の文字列認識?

答えて

2

この場合、smart_formatting~trueと設定します。

smart_formattingパラメータは、日付、時刻、一連の数字と数字、電話番号、通貨の値、およびインターネットアドレスを、認識要求の最終的な写しのより一般的な表現に変換します。この変換により、転写物をより読みやすくし、転写結果の後処理を良好にすることができる。次の例のように、スマートフォーマットを有効にするには、このパラメータをtrueに設定します。デフォルトでは、このパラメータはfalseであり、スマートフォーマットは実行されません。

チェック:

curl -X POST -u {username}:{password} 
--header "Content-Type: audio/flac" 
--data-binary @{path}audio-file.flac 
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?smart_formatting=true" 

結果:

:量は1000101

です:数量は結果百万101

です

IBMのオフィシャルdocumentationを確認してください。

:スマートフォーマット機能は、現在のところ英語(米国)のみで使用できるベータ版機能です。

+0

お返事ありがとうございますが、問題は文字列内で文字が話されている場合です。 Smart_formattingは既に有効ですが、英数字の文字列はありません。私はまた、チャットウィンドウを使用中に動作するが、STTを使用してヒットまたはミスしたinput.text.match( "^ [a-zA-Z0-9] * $")の使用を試みました。目標は、英数字の文字列のみを受け入れるようにワトソンを取得することです。したがって、実際に範囲を狭めます。データは固定長文字列(7文字)で、文字はどこにでも置くことができます。例:HV00310。 –

+0

私はIBM音声ゲートウェイを使用していることに注意してください(STTは狭帯域です)。 –

関連する問題