2011-11-10 27 views
1

日本のかな(つまり子音+母音)の着信オーディオストリームを変換するためにオープンソースコードを探したいと思いますリアルタイムでそれらをかなり印刷します。音声認識:日本語かな(子音+母音)を検出

しかし、私はこれらの基本的なサウンドユニットを私の独自の目的のために使いたいので、本物の日本語の単語を抽出しようとする高度な処理は望んでいません。私はちょうど生かなを手に入れたいです。

誰もそのような技術を認識していますか?

日本語のアルファベットは、基本的にKanaの10x5グリッドであることを知りました。 10列(空+9子音)、5行(母音)

各要素は「カナ」と呼ばれ、これらのカナのシーケンスで構成されています。これらは基本的なビルディングブロックです。

これは、音声認識アルゴリズムに大きな影響を与える必要があります。

私が知っている市販の音声認識エンジンはすべて、CMUSphinxから得られます。これは3つの音素の間の各動きを一意のMFCCベクトルで表し、最も可能性の高い三角発声のシーケンス(それから、音素を簡単に推論してから、WORD-tripletsの辞書を実行して、最も可能性の高い文を見つけることができます)。

しかし、日本語などの言語については、これはもはや最も効率的なアルゴリズムではないと思います。

代わりに、個々のカナかカナを試してみると意味があります。

... 2グラムまたは4グラムになる予定です。 3ではなく!

何かありますか?あるいは、彼らは西洋世界と同じエンジンを使っているだけですか?

答えて

2

Juliusには日本語の音響モデルと言語モデルがあります。 アプリケーションに適しているか試してみてください。

訓練された言語モデルはわかりませんが、Juliusは逆方向パスで オーダーのnグラムをサポートできます。フォワードではbigramをサポートしています。逆 のパスで4グラムを使用するのが一般的です。両方のLMはジュリアスツールを使用してまとめられています。

ルイス ASR Labs

+0

ありがとうございました!リンクはこちら:http://julius.sourceforge.jp/en_index.php?q=index-en.html –