cmusphinx

    0

    1答えて

    sphinxbase、sphinxtrain、pocketsphinxをLinux (Ubuntu)にインストールしました。今私は、VOXFORGEから得られたスピーチコープ、トランスクリプト、辞書などでデータをトレーニングしようとしています。私は新しいが、私はちょうどデータを訓練し、転写産物といくつかのwavファイルのいくつかの行でいくつかの結果を取得したいだとして (私などとwavファイル、フ

    0

    1答えて

    私のプログラムは基本的に音声からテキストです。私はLiveSpeechRecognizer CMU Sphinxを使用しています。私のプログラムはエラーなしで実行されていますが、それは印刷語ではありません。私はそれが私の文法ファイルから無作為な単語を印刷することを意味します。 私は私のマイク コードとしての私のサムスンの携帯ヘッドフォンを使用しています:私はこれらの言葉を言わなかった /* *

    0

    1答えて

    私は音声認識にpocketsphinxでfreeswitchを使用していますが、文法ファイルで英語を使用するとうまくいきますが、今ではフランス語を使用したいと思うので、すでにフランス語モデルをhttps://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/French/からダウンロードしましたf

    1

    1答えて

    キーワードリストと相対的なしきい値に基づいて連続キーワード検索をテストするpocketsphinx androidデモを変更しています。 edu.cmu.pocketsphinx.RecognitionListenerを実装したときのonResultメソッドの文字列を hypothesis.getHypstr()とすると、一致する可能性のあるリストが含まれます。 私はこのように行うことが可能である

    1

    1答えて

    私はcmusphinx用の辞書に単語を追加することの関心がG2P-seq2seqツールを実行しようとしていますが見つかりません。 私はthe g2p github pageの指示に従ってています。 ページをインストールtensorflowに指定されているようvirtualenvの方法を使用してTensorFlow私がインストールされています。 私はtensorflowページで指定に従って$ sou

    2

    1答えて

    pocketsphinxとsphinxtrainでトレーニングデータです。私たちはトレーニングデータの時刻をログファイルで見ることができます。私の現在のトレーニングデータのように Phase 5: Determine amount of training data, see if n_tied_states seems reasonable. Estimated Total Hours Trai

    0

    1答えて

    ロシア語とアラビア語のスピーチを混在させて1人の特定のスピーカーのための音声認識システムを実装しようとしていますが、 音響モデルを話者の15分間の発話で適応させると、エラー率が高すぎます(6-10単語から右1を認識します)。 私がしたこと: 1.私はアラビア語をロシア語に翻訳し、 辞書に入れました。 2.私はru4sphinxプロジェクト から古いモデルmsu_ru_zero.cd_cont_20

    0

    1答えて

    CMU Sphinxライブラリを使用して.wavファイルで音声アクティビティを検出する簡単なプログラムを作成しようとしています。 はこれまでのところ、私は、次の SpeechClassifier s = new SpeechClassifier(); s.setPredecessor(dataSource); Data d = s.getData(); while(d != null)

    -1

    1答えて

    私のスクリプトは音声認識訓練をうまくやっていましたが、最近私はより多くのデータを訓練するようにスケールアップしようとしました。 ERROR: "backward.c", line 421: Failed to align audio to trancript: final state of the search is not reached これは何を意味しますか?それについて私は何ができます

    1

    1答えて

    私はcmusphinx opensource APIを使用しています。これは.wavオーディオ形式をテキストに変換し、特定の入力音声言語に言語モデルを使用しています。