Microsoft Bing Speech APIは、フルワードではなく数字と文字のみを返すように設定できますか?数字/文字のみを返すようにMicrosoft Bing Speechを設定できますか?
このユースケースでは、カナダの郵便番号を翻訳しています。 Ex。 M 1 B 0 R 3. Microsoftは "Em 1 Be 0 Are 3"を返します
私たちのオーディオファイルは8000hzで、 "M-ULAW"でエンコードされています。サンプルレートやエンコーディングを自由に変更することはできません。私たちは "SMD"シナリオを使用していますが、これが何をしているのかに関するドキュメンテーションは見つかりません。基本要求URI:
https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5&device.os=your_device_os&version=3.0
は、このユースケースについては、Microsoftからのより正確な応答を取得する方法はありますか?
はあなたがcustom language modelを作成して使用する(以前にカスタム認識インテリジェントサービス、またはCRISとして知られている)Microsoft's Custom Speech Serviceを使用して試みることができるあなたに
私は何をしましたか?言語モデルのデータセットで考えられるすべての郵便番号のファイルではなく、カナダの郵便番号プレフィックス(M1B、M8X、B3Lなど)の改行で区切られたファイルをアップロードしました。結果はまだ完全ではありません。例えば、「R 2 G」はまだ「R 2 C」として転写されている。私はAcoustic Language Modelがより良い賭けかもしれないと思うが、それは多くの、多くのサンプルオーディオファイルの集まりを必要とするだろう。 –
私は、特にあなたがμ-law/mu-lawエンコーディングを使用していることを忘れていました。独自の音響モデルを作成することも役に立ちます。私はカスタム言語モデルがあなたができる最高のものになると思う。いくつかの認識システム(例えば、ポケットフィックス)では、統計言語モデルとは対照的に文法を指定することができます。これも試してみる価値があります。 –