2016-06-20 37 views
4

私はJavaアプリケーションを持っています。そして、私はそれに音声認識機能を実装したいと思います。ただ、このような音声認識Api

:ねえ 『音声認識『彼/彼女が言うとき、ユーザが』

、私は、「2、』お茶「をちょっと」、「1」と呼ばれているいくつかのレコードを持っていると仮定すると、 apiはレコードの最初の入力を認識する必要があります。 "hey"、 "one"、 "two、" tea "は英語ではない単語です。

私はすでに、音声認識をサポートしているか、またはオーディオ指紋認証アルゴリズムを持っているいくつかのAPIを探しています。しかし、私はそれらを使いたくありません。

なぜ私はこれらのAPIを使用しないのか説明しましょう。 まず、音声認識APIは単語を理解してテキストに変換しようとします。ただしこれはapiのサポート言語に限られています。たとえ音声認識APIが英語の言語をサポートしているとしても。ユーザーの悪い発音のために悪い結果を与えることができます。だから私は私のアプリケーションで音声認識APIを使用したくない。この機能は言語ベースであってはならないためです。

さらに、私は音声認識APIを探したとき、私は "音声指紋" apiを見つけました。私はオープンソースの "musicg" apiを使っています。そして、私はテストアプリケーションを開発しました。アプリケーションは、未語音声を含む4つの異なるオーディオファイルを記録します。その後、私はそれらの1つに似た声を録音し、テストAPIはmusicg apiを使用して前のオーディオファイルと最後のファイルを比較しました。しかし、結果はまた本当に悪いです。

私が前に述べたように、私は古い携帯電話のような音声認識機能を得る必要があります。

+0

私は同じ問題を抱えています。まだ答えを探しています。拍手の認識についての参考文献? –

+0

@SagarNayakあなたはmusicg apiを使って拍手を認識できます。 https://groups.google.com/forum/?fromgroups#!topic/musicg-api/oWRpUo3ZNXo – ziLk

+0

試してみてください。おかげさまで@zilk –

答えて

1

チェックカルディhttp://kaldi-asr.org/ またはこのtensorflowチュートリアル:どちらの場合もhttps://www.tensorflow.org/tutorials/audio_recognition

、あなたはモデルをトレーニングすることができ、それがベースの言語ではありません。特定の声やアクセント、または特定のコンテキストのモデルを訓練することができます。

https://github.com/cmusphinx/g2p-seq2seq これは言語モデルを使用せず、音声を音素に変換します。