2017-04-24 8 views
-1

私は、アンドロイドデバイスで使用するアラビア語の音声認識を持つ1つのゲームを構築しようとしています。私は音声認識ツールで立ち往生しています。どちらが統一に適していますか? Google APIを直接使用できますか?はいの場合はデータを制御できますか?アンドロイドのユニティゲームエンジン、スフィンクス、GoogleスピーチのAPI

またはsphinxはAndroid搭載デバイスのゲームに適していますか?私はスフィンクスについて読みましたが、アラビア語の音響モデルは利用できませんでしたが、それに対してです。

私はMATLABを使用して作成しようとしましたが、MATLABコーダーを使用してモバイルで構築するのに多くの費用がかかり、必要なライブラリがすべて含まれていません。

これについてのヘルプはありますか?

答えて

0

公式ユニティプラグインはここにある:

https://github.com/cmusphinx/pocketsphinx-unity-demo

アラビア語モデルがはい、訓練を受けたことがあります。結局、あなたは良いシステムを持つことができますが、十分な投資をしなければなりません。

+0

提供されたリンクはアンドロイド用OSX用ではありません。 –

0

スピーチとアンドロイドについては、Googleプラットフォームが最適です。問題は、プラットフォームへの呼び出しが必要だということです。試していないオフラインバージョンがあります:Offline Speech Recognition In Android (JellyBean) Googleプラットフォームでは、Asset Storeに20ドルの格安プラグインがあります。

主な問題は、連続した検出を提供しないため、録画を開始して送信を停止する必要があります。多分それはあなたに適しています。 問題が多いのは、多くのユーザーがいる場合、月に1時間しか無料ではなく、サーバーの使用料を支払うことになります。私は約0.015 /分だと思う。 一方、ローカルアクセントを含む80以上の作業言語があります。

CMUSphynxは別のソリューションです。オープンソースとオフラインの機能は素晴らしい選択です。私たちはUnity用の独自のAndroidプラグインを用意しなければなりませんでしたが、私たちは使い方を落としてしまいました(尋ねる前に、いいえ、プラグインを残念ながら提供できません... NDAが関わっています)。また、言語は限られています。

ニュアンスのような他のソリューションもありますが、デモ・ゲームの範囲外の可能性もあります。彼らのAPIは、自動リダイレクションのためのボイスオーバー電話のような専門的な状況では、より高度であり、定期的に使用されています。 Vuzixデバイスでも使用されます。

Googleスピーチを試してみると、データを制御できます。基本的には、オーディオファイルを録音してサーバーに送信し、サーバーは認識された単語のリストを含むjsonオブジェクトを成功確率で応答します。

あなたは最初のものをつかんで内容を解析します。あなたが望む考えると移動アクションを取得し、その結果は次のようになります。pocketsphinxため

// This is the result from GSP 
    string str = "Move player one unit"; 

    if(str.Length == 4) 
    { 
     // Parse 
     string action = str[0]; 
     string actor = str[1]; 
     string amountStr = str[2]; 
     string unit = str[3]; 
     // Convert 
     float amoutFl = ParseAmount(amountStr); 

     // Check 
     if(hashSetActor.Contains(actor) == false){ // error } 
     if(hashSetUnit.Contains(unit) == false){ // error } 
     if(actionDictionary.Contains(action)) 
     { 
      // Act 
      actionDictionary[action](actor, amountFl,unit); 
     } 
    } 
関連する問題