2009-05-22 16 views
0

音声認識がより多く実装され、音声認識が良好なライブラリが要求されています。キーボードやキーパッドと比べて、その背後にある理由(ユーザビリティの観点から)は何ですか?この開発に何の理由がありますか?ユーザビリティ:音声認識とキーパッド

たとえば、コールセンターを利用しましょう。数年前、ほぼすべてのコールセンターでIVRが使用され、メニューのキーが求められました。ここでは、話されているキーワードや押されたキーパッドを促すメニューが増えています。「請求書をお伝えください.1を押して請求書を確認してください。それとも、会社の電話帳にも同じことがあります:「あなたが到達しようとしている人の名前を教えてください...」フランク・ロイド「...」あなたはジャック・フロイトとおっしゃいましたか?この人に連絡するか、もう一度やり直すように言います。

あなたの携帯電話を持たずに車に乗っているときはプラスだと思いますが、追加の待ち時間の価値がありますか?すべての選択肢に対してより長い相互作用、何かが言われたかどうかなどを分析しようとする際のより長いプロンプト時間?また、確かに信頼性ははるかに優れていますが、時には誰かがシステムに接続して未来的に感じることができるおもちゃのように感じることがあります。

音声認識を使用した(または選択しなかった)IVRまたはソフトウェアを設計した経験はありますか?

ありがとうございます!

答えて

1

キーボード またはキーパッド対その背後( ユーザビリティの期間中)の理論的根拠は何ですか?

使いやすさは非常に広い用語です。私がタッチパッドで私の住所を入力しようとすると、それはあまり役に立たないと思われるでしょう。全体的な成功率が70〜80%のスピーチエンジンを使用することはあまり役に立たないと主張する人もいます。他のポストに示されているように、携帯電話の人にとっては、ハンズフリーの入力ははるかに簡単です。しかし、話題が発信者にとっては多少外国語である場合、単語対数値入力を使用することは実際にはタッチトーン電話よりも直感的ではありません。訪問者は、よく知られていない用語やフレーズを聞いても、プロンプトが表示されてから10〜30秒でそれを覚えることはできませんが、指で最高の選択肢にカーソルを合わせるか、選択の順序を覚えておくことができます。

あなたはこの開発に投資するためにどのような理由がありますか?

これは奇妙な質問です。通常、音声をIVR環境で使用するかどうかの決定は、世界の発展の観点から推進されるものではありません。スピーチが本当に必要な特定の要件がない限り、ほとんどの場合、全体的な成功率は低下しています。スピーチは通常、企業イメージの要素です...または最新の技術的なおもちゃを持っています。

あなたの携帯電話を持たずに車に乗っているときはプラスだと思うけど、追加の待ち時間に値するですか?

最近のASRを使用している場合、音声認識の待ち時間はあまり高くありません。ほとんどの場合、入力は音声と並行して処理され、音声認識終了間の時間は0.5〜1秒です。多くのIVRは、いくつかの入力後にデータ検索を実行する必要があり、これはより低速のシステムとして現れる可能性があることに注意してください。 1秒を超える通常の入力は、通常、電力不足の展開の兆候です。

オリジナルの実装時に電源が切れていない可能性がありますが、チューニングの手間をかけて、パフォーマンスと精度の判断を大幅に上げています。その次の.1%を得るには、リソースがピーク時に必要なものを超えてプッシュすることができます。

また、信頼性は、間違いなく、 それがあったよりも良いですが、いつかそれはより多くの誰かがそれが未来を感じることができるように、システムに接続する を決めたおもちゃのように感じています。

一般に、はい。信頼性については、実際にはシステムの意味を理解するために全体の数字を調べる必要があります。それは、個人がそれほど重要ではない統計の戦いです(VP以上のタイトルがない限り)。入力の最適化(プロンプトの変更)、リソースの使用状況およびその他のスピーチ・リコ・チューニング・パラメータを使用して、精度を最大化しようとします。基本的な自然言語の反応については、あなたは90代以上になることができます。しかし、あなたの全体的な成功率ははるかに低いです。 98%.98 * .98 * .98 * .98 = 90%の98%で5つのプロンプトが表示されると想像してください。これは、10のうち1つが失敗することを意味します。それは呼び出し側の混乱とビジネスルールの前です。DTMF入力は、通常、数回入力しても100%に非常に近くなります。

が音声認識を使用していた(または選択していない)IVRまたはソフトウェアを設計している経験はありますか? はい。しかし、私は本当にあなたが望む質問ではないと思う。テクノロジー側の誰かとして、これは通常あなたの決定ではなく、あなたはその影響を制限されています。

長所::あなたは本当にスピーチの長所/短所を探しているなら

  • クール/ヒップ(ノート、単独のスピーチは十分ではありませんあなたは偉大なVUIと音声の才能を必要としています。 )
  • 耳の部分を払わない可動性の高い人に適しています。将来は、スピーチを触覚入力と融合させることになっています。多分。おそらく、市場のIVR側からは来ないでしょう。
  • DTMFで実行できないタスクに適しています。これらの問題の多くは、スピーチの成功率が低い傾向にあることに注意してください。コスト(人間と比較して)は、通常、ユーザビリティではありません。アドレス変更などのためにボイスメールボックスに通話をドロップすることは、非常にコスト効果があります。

短所:開発に高価な

  • 、展開、および保守。あなたが慎重でない場合は、新しい選択肢を追加することで成功率に大きな影響を与えることができます。変更の影響を常に監視します。
  • 多くの場合、不適切に展開されます。たとえば、あなたの数値メニューの選択肢を言うだけです。これは、ほとんどの場合、スピーチの涼しさを望んでいるが、スピーチの涼しさを実現するために本当に必要なものを手に入れることはできません。
  • 成功率は低くなるため、コールセンターのコストは高くなります。
  • エラーは、特定のプロンプトと個々の発信者に重点を置く傾向があります。あなたのシステムで定期的に問題を経験している発信者は、あなたにとって非常に不幸です。
  • 発信者はわからないときに怒ります。あなたの顧客ベースのサブセットを特定し、実際に怒らせることの目標はありますか?
+0

偉大な答え。ありがとう。追加の待ち時間については、ほとんどの場合、音声分析に必要なシステムの時間ではなく、システムとのやりとりの仕方を説明するために必要な長いプロンプトを参照していました。プロンプトはしばしば「あなたの請求書にアクセスするには1を押すか、「請求書」を大声で明瞭に言うには2を押し、誰かに話すには「2」を押します。 – lpfavreau

1

どのような入力方法のような音声認識でも、それはプロとコンシューマがあると思います。

Proの

  • ない学習曲線は、我々は非常に若い年齢以来話すされています。
  • 非常にユーザーに直感的です。
  • ヘッドセットを常に耳から動かす必要はありません。

コンの

  • 長い待ち時間
  • 悪い音質は、選択権を取得するために複数の試みを取る場合。
+1

また、パフォーマンスを最適化するためにユーザー固有のトレーニングを要求するという制限があります。あなたが珍しいアクセントを持っている場合、あなたが遭遇する一般的に訓練された電話システムはあなたに荒い時間を与えるかもしれません。 –

+0

私は "あなたの耳からヘッドセットを動かす"のが好きですが、一方で、ほとんどのシステムでは、少なくともキーパッド(あなたのNIP、クレジットカード番号など)に何か入力して、良いIVRを入力する必要があります4〜5レベルの深さ以上のものがありますか?あまりにも多くの人にダイヤルする必要はありません。 – lpfavreau

+0

@Ipfavreau:私は実際にあなたがそれぞれの番号を話すシステムを見つけましたが、それはイライラしているようです。 –

1

場合によっては、回転電話機を扱う会社が必要です。認識システムを設定するだけではなく、両方を使用するよりも費用がかかることがわかります。

音声認識にはタッチトーンよりもオーバーヘッドがあります。最高の結果が必要な場合は、アプリケーションを常に微調整し、認識できない単語の発音についてシステムを鍛える必要があります。また、ユーザーに音声認識を促す方法や、予期しない応答が生じる可能性があることについても特に注意する必要があります。

任意の時点で可能なオプションのセットが限られているため、全体のタッチトーンはずっと簡単です。

あなたのアプリがまっすぐ前方にある場合は、音声を録音するだけで多くのことが難しくなります。他の言語では2を押してください。

1

タッチスクリーン技術と組み合わせると、音声認識は間違いなく未来の波です。例として、私は音声認識を使用します。それはXPとVistaのバージョンで利用可能です。 Microsoftのタッチスクリーン「Surface」プラットフォームはVista上で動作するので、私はtaztiがタッチスクリーン技術で動作することを確信している。私がtazti音声認識を試みたとき、組み込みのコマンドはうまくいった。また、それは私自身のスピーチコマンドを作成し、それらも素晴らしい作品です。音声検索のGoogleとYahoo、Wikipedia Youtubeなどの検索エンジンは素晴らしいです。他にも多くの機能があります。しかしそれは口述を持っていません。私はインターネットのクリック数の70%以上を排除していることに気付きました。注:Taztiはウェブサイトから無料でダウンロードできます。