speech-recognition

    0

    1答えて

    私はこの質問 3-state phone model in Hidden Markov Model (HMM) を読んで、私は*どのような3ステート手段を理解しますが、遷移行列が(状態+ 2)で作られた理由をまだ理解していない(状態+2)行列である。 これは私が得たものです。私は約21台の携帯電話のデータを持っています。 #define N_STATE 3 #define N_PDF

    1

    1答えて

    私はAndroidアプリケーションでSpeechRecognizerライブラリを使用しようとしています。まず第一に、私が話すのを止めてもそれは止まらない。 私が自分自身を認識しているのを止めようとすると、次に「マッチしません!」というメッセージが表示されます。直ちに。 私の質問は:私はGoogleの音声認識を使用すると(たとえば、私がウェブ上で検索すると)、それは魅力的に機能します。私のアプリでは

    0

    1答えて

    が、私はこのコードを使用して、私のiOSアプリで音声認識を実装しています(xamarin):それはフランス語以外は非常にうまく機能し // Setup audio session var node = AudioEngine.InputNode; var recordingFormat = node.GetBusOutputFormat (0); node.In

    1

    1答えて

    音声認識の目的で生の音声データをあるフォーマットから別のフォーマットに変換しようとしています。 48Khz, 16-bit stereo signed BigEndian PCM: オーディオフォーマットで20msチャンクにDiscordサーバから受信されます。 私はInputStream RIFF (little-endian) WAVE audio, 16-bit, mono 16,000Hz

    1

    1答えて

    私は無知を赦してください。私は緊急のラジオアナウンスの記録を取ろうとしていますexample1example2。明らかに、私は高度なASR(自動音声認識)ツールのどれもそれから何の意味もないので何か間違っています。 私はIBM Watson、Google Speech、さらにCobaltを試しました。誰もオーディオから最も基本的な情報を集めることはできません。 ここでは2部構成の質問です。上の例の

    -2

    1答えて

    私のアプリケーションでは、バックグラウンドサービスの音声認識を実装しました。 Oreo OSはバックグラウンドサービスをサポートしていないため、数秒(PixcelおよびNexusデバイスで)後に動作を停止します。このサービスは、アプリケーションの主な機能です。それはAndroid OS 8でも引き続き実行する必要があります。私にそれのための解決策を提供してください。 このリンクは8つのアンドロイド

    0

    1答えて

    このサービスは現在プレビュー中で、ドキュメントとの同期がとれていないようです。 ドキュメントhereは、カスタム音声サービスのAzureポータルページのように見えない別のコンソールからのスクリーンショットを示しています。私が確認したAzure SDKは、カスタム音声サービス機能を全く持っていないようです。 どのように語彙統計をカスタマイズするために言語データセットをアップロードできますか?

    2

    1答えて

    pythonで実行しているこのファイルを使用すると、pyinstallerを使用して実行可能ファイルに変換すると無限の時間実行され、目の瞬きのみ実行され、実行され、それを見てください。あなたは私に説明と解決策を教えてもらえますか? import speech_recognition as sr import pyttsx3 import pocketsphinx import pyaudio

    1

    1答えて

    私は、リアルタイムで話している速度を素早く簡単に測定する方法を探しています。コースごとのアプローチや近似で十分です。アイデアは、少なくともスピードアップやスピードを遅くするよう指示するシンプルなapp/widgetを書くことです。ピッチや音量などの測定もいいかもしれません。 これはさまざまな音声認識ライブラリを使って簡単に行うことができますが、私はそれらのどれにも慣れていないと思います。ドキュメン