cmusphinx

0熱

1答えて

sphinxbase、sphinxtrain、pocketsphinxをLinux (Ubuntu)にインストールしました。今私は、VOXFORGEから得られたスピーチコープ、トランスクリプト、辞書などでデータをトレーニングしようとしています。私は新しいが、私はちょうどデータを訓練し、転写産物といくつかのwavファイルのいくつかの行でいくつかの結果を取得したいだとして（私などとwavファイル、フ

0熱

1答えて

LiveSpeechRecognizerはランダムな単語を出力します

私のプログラムは基本的に音声からテキストです。私はLiveSpeechRecognizer CMU Sphinxを使用しています。私のプログラムはエラーなしで実行されていますが、それは印刷語ではありません。私はそれが私の文法ファイルから無作為な単語を印刷することを意味します。私は私のマイクコードとしての私のサムスンの携帯ヘッドフォンを使用しています：私はこれらの言葉を言わなかった /* *

0熱

1答えて

freeswitch pocketsphinx：インストールモデル言語

私は音声認識にpocketsphinxでfreeswitchを使用していますが、文法ファイルで英語を使用するとうまくいきますが、今ではフランス語を使用したいと思うので、すでにフランス語モデルをhttps://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/French/からダウンロードしましたf

1熱

1答えて

複数の一致が見つかったときにSegmentListを繰り返し処理できません

キーワードリストと相対的なしきい値に基づいて連続キーワード検索をテストするpocketsphinx androidデモを変更しています。 edu.cmu.pocketsphinx.RecognitionListenerを実装したときのonResultメソッドの文字列を hypothesis.getHypstr()とすると、一致する可能性のあるリストが含まれます。私はこのように行うことが可能である

1熱

1答えて

G2P-seq2seq-cmudictモデルは

私はcmusphinx用の辞書に単語を追加することの関心がG2P-seq2seqツールを実行しようとしていますが見つかりません。私はthe g2p github pageの指示に従ってています。ページをインストールtensorflowに指定されているようvirtualenvの方法を使用してTensorFlow私がインストールされています。私はtensorflowページで指定に従って$ sou

2熱

1答えて

スフィンクス列車の試験データの所見。

pocketsphinxとsphinxtrainでトレーニングデータです。私たちはトレーニングデータの時刻をログファイルで見ることができます。私の現在のトレーニングデータのように Phase 5: Determine amount of training data, see if n_tied_states seems reasonable. Estimated Total Hours Trai

0熱

1答えて

最初から音響モデルを作成したり、既存の音響モデルに適応させるには

ロシア語とアラビア語のスピーチを混在させて1人の特定のスピーカーのための音声認識システムを実装しようとしていますが、音響モデルを話者の15分間の発話で適応させると、エラー率が高すぎます（6-10単語から右1を認識します）。私がしたこと： 1.私はアラビア語をロシア語に翻訳し、辞書に入れました。 2.私はru4sphinxプロジェクトから古いモデルmsu_ru_zero.cd_cont_20

0熱

1答えて

Sphinx音声アクティビティ検出

CMU Sphinxライブラリを使用して.wavファイルで音声アクティビティを検出する簡単なプログラムを作成しようとしています。はこれまでのところ、私は、次の SpeechClassifier s = new SpeechClassifier(); s.setPredecessor(dataSource); Data d = s.getData(); while(d != null)

-1熱

1答えて

"backward.c"、421行目：音声を文字列に整列できません

私のスクリプトは音声認識訓練をうまくやっていましたが、最近私はより多くのデータを訓練するようにスケールアップしようとしました。 ERROR: "backward.c", line 421: Failed to align audio to trancript: final state of the search is not reached これは何を意味しますか？それについて私は何ができます

1熱

1答えて

英語のpocketsphinxオープンソース音声認識APIの精度を向上させるにはどうすればよいですか？

私はcmusphinx opensource APIを使用しています。これは.wavオーディオ形式をテキストに変換し、特定の入力音声言語に言語モデルを使用しています。