speech-recognition

    -1

    1答えて

    私は、ユーザーが「セルフ」と言うと画像をキャプチャするカメラアプリを作成しています。私は音声認識装置の使い方を知らないので、誰でも助けてください。あなたがコードを共有できるなら、本当に役に立ちます。 私はatheアイデアを持っているが、私はそれを統合する方法を知らない: 1 - 音声認識は、ユーザからの入力を取ります。 2 - 「セルフ」と比較すると、トーストしていないと一致するキャプチャ画像があ

    -1

    1答えて

    私はSDKのセクションで与えられているpythonラッパーを使用しています。私は、python APIを使って作成したプロファイルの音声ファイルを登録しようとしていました。 私はプロファイルを作成し、すべてのプロファイルを正常に一覧表示できました。しかし、作成したプロファイルで単純なhelloワールドフレーズで音声ファイル(.wav)を登録しようとすると、エラー'エラー:ルート:エラー登録プロファ

    0

    1答えて

    私はヒンディー語の音声認識に取り組んでいます。モデルのパスを設定する際にエラーが発生します。私はそれらを次のように設定しています。どこが間違っていますか? configuration .setAcousticModelPath("file:///C/Users//Desktop/hindi/model_parameters/hindi.cd_cont_1000"); configuration

    0

    1答えて

    私は原始的な音声認識を行い、私のオーディオ信号には簡単な記述子が必要です。 私は自分のオーディオ信号からFFTしか持っていませんが、後で何をすべきか分かりません。トレーニング信号からFFTだけで隠れマルコフモデルを試してみると、間違った答えが返ってきます。 FFT信号をMFCC(Mel Frequency Cepstrum Coefficients)に変更するのに役立つC#ライブラリについて教えて

    1

    1答えて

    私は、文脈の独立した/依存する音響モデリングが何であるかを正確に理解しようとしています。私はそれに対処するいくつかの論文を読むことを試みてきましたが、私はまだそのコンセプトでは少し不安定です。私が現在理解しているように(間違っている可能性がある)、文脈依存の音響モデルは、音素が連続して出現するデータに対して訓練された音響モデルである。例えば、単語を含むターゲット言語で訓練されるので、音素は前後に生

    1

    2答えて

    こんにちは私はアンドロイドのための日本語学習アプリを作っています。機能の1つは、あなたが正しく言葉を言っているかどうかを確認するために、日本語でアプリに話すことです。私はそれをpromptSpeechInputと一緒に扱うことにしましたが、私はuiが邪魔になるのを好きではなかったので、私は別の敗走に行き、私のフラグメントを実装しましたRecognitionListener。何らかの理由で、現在日本

    1

    1答えて

    深い神経ネットワーク、特にLSTMを勉強し、私はこのリンクで提案されているアイデアに従うことにしました:Building Speech Dataset for LSTM binary classification 私は、各配列が単語の各音素であるMFCCを抽出する機能を備えたオーディオベースを持っています。 トレーニングデータは次のようになります:レタリングで X = [[phon1fram[1]

    0

    2答えて

    私は基本的なトムのようなコードを書いています。その人に耳を傾けて、その側のオーディオを繰り返します。スピーカーが話したテキストを表示します。 私が直面している問題は、printとlistenコマンドを同時に使用することができないことです。 私はフレーズを2回、つまり画面に印刷するために1回、それを繰り返すためにもう一度話す必要があります。 この2つのことを一度にしか起こらないと分かります。つまり、

    3

    1答えて

    私はHololensで音声認識を使用して独自のUnityプロジェクトを作成しようとしています。私はtutorialから指示書を貼り付けました。 SpeechManager.csファイルとSphereCommands.csファイルを文字通りコピーしてコピーしますが、変更はされません。私はいくつかの音を入れようとしました: KeywordRecognizer_OnPhraseRecognized私はそ

    1

    1答えて

    私はどのようにGoogleが音声認識APIのテキストを音声に変換するのかを知りたいと思います。 ほとんどすべてのサウンドを保存し、特定の周波数レベルで一致させているか、「A」、「The」、「B」、「A」などの異なるサウンドパターンの音声を分析する、 V "、" D "、" Hello "など、 これも素晴らしいでしょう。ある人が共有できる場合、どのようにオーディオがエンコードされ、どのようにさまざ