オンラインモードとオフラインモードの違いは何ですか? なぜオフラインモードの精度が低下するのですか?正確性の高いソリューションはありますか?
オフラインモードは、およそのファイルサイズを持つモデルに基づいています。 20.3MB;インターネット接続が必要でない場合、データを送受信する必要はありません。それにかかわらず、このモデルでは、オンラインバージョンよりも約6.5〜7倍高速の音声対話が行われます。ここで重要な言及は、このモデルは13.5%の単語誤り率を持っているということです。ただし、それほど高くないものの、限られたデータとアルゴリズムではかなり高いですが、アクセスできるのです。
オンラインシステムでは、明らかにより多くのトレーニングデータにアクセスでき、より多くのアルゴリズムで解析することができます。私は、オフラインのバージョンは、代わりに、オンラインバージョンが利用できないときの代用として考えることができるとは思わない。私は、ユーザーが「English US」が「English UK」よりも優れていると主張している記事を読んでいます。なぜならその理由はわかっていません。
3G音声とデータを同時に送信できません。 WiFi/4Gにはこの問題はありません。このような制約がある場合、データをキャッシュしてオンラインエンジンにアクセスできるように、いくつかの設計変更を組み込むことが1つの方法である可能性があります(たとえば、サービスプロバイダ、LTE /非LTE、CDMAなどの制約など) 、呼び出しが完了した後。
私の限定された経験では、オフライン機能のために、CMUSphinxはより良い賭けのようです(Googleは1日に50コールに制限されています)。いくつかの利用可能なAPIのリストはhereです。
ここでオフライン音声対話を有効にした研究論文は[link]とリンクしています。
お返事ありがとうございました。私はポケットフィックスで試しました。この例のリンクはhttps://github.com/cmusphinx/pocketsphinx-android-demoです。それは数字のためのかなり良い精度を与えますが、単語のためのものではありません。 –
また、Kaldiも試してみることができますが、オフラインでの音声読み上げは非常に制限されているため、精度はあまり高くありません。要件に応じて、1つまたは2つのAPIを組み合わせて使用することもできますが、私はその決定をあなたに任せます。 –