2016-03-29 16 views
0

私はスピーチからテキストアンドロイドアプリケーションに取り組んでいます。 Google APIは、オンラインとオフラインの音声からテキストへの変換に利用できます。オンラインとオフラインの違いスピーチからテキストへの変換

私は、Google API(オフラインAPIと同様にオンラインでも可)上のテキストからスピーチのテストを行っています。テキストへのオンライン音声は、オフラインと比較してより良い精度を与えることが観察されている。今質問があります

  1. オンラインモードとオフラインモードの違いは何ですか?
  2. なぜオフラインモードの精度が低下するのですか?正確性の高いソリューションはありますか?
  3. 電話がかかってきたら、データ接続が途絶えます。私は一度に両方を達成できる解決策はありますか?

答えて

3

オンラインモードとオフラインモードの違いは何ですか? なぜオフラインモードの精度が低下するのですか?正確性の高いソリューションはありますか?

オフラインモードは、およそのファイルサイズを持つモデルに基づいています。 20.3MB;インターネット接続が必要でない場合、データを送受信する必要はありません。それにかかわらず、このモデルでは、オンラインバージョンよりも約6.5〜7倍高速の音声対話が行われます。ここで重要な言及は、このモデルは13.5%の単語誤り率を持っているということです。ただし、それほど高くないものの、限られたデータとアルゴリズムではかなり高いですが、アクセスできるのです。

オンラインシステムでは、明らかにより多くのトレーニングデータにアクセスでき、より多くのアルゴリズムで解析することができます。私は、オフラインのバージョンは、代わりに、オンラインバージョンが利用できないときの代用として考えることができるとは思わない。私は、ユーザーが「English US」が「English UK」よりも優れていると主張している記事を読んでいます。なぜならその理由はわかっていません。

3G音声とデータを同時に送信できません。 WiFi/4Gにはこの問題はありません。このような制約がある場合、データをキャッシュしてオンラインエンジンにアクセスできるように、いくつかの設計変更を組み込むことが1つの方法である可能性があります(たとえば、サービスプロバイダ、LTE /非LTE、CDMAなどの制約など) 、呼び出しが完了した後。

私の限定された経験では、オフライン機能のために、CMUSphinxはより良い賭けのようです(Googleは1日に50コールに制限されています)。いくつかの利用可能なAPIのリストはhereです。

ここでオフライン音声対話を有効にした研究論文は[link]とリンクしています。

+0

お返事ありがとうございました。私はポケットフィックスで試しました。この例のリンクはhttps://github.com/cmusphinx/pocketsphinx-android-demoです。それは数字のためのかなり良い精度を与えますが、単語のためのものではありません。 –

+0

また、Kaldiも試してみることができますが、オフラインでの音声読み上げは非常に制限されているため、精度はあまり高くありません。要件に応じて、1つまたは2つのAPIを組み合わせて使用​​することもできますが、私はその決定をあなたに任せます。 –

関連する問題