私は音声ベースのAIを実行するiOSアプリケーションを開発中です。つまり、マイクからの音声入力をテキストに変換してAIエージェントに送信し、返されたテキストをスピーカーから出力することを意味します。スピーチの録音を開始したり停止したりするためにボタンを使用していますが(音声認識のためのSpeechKit、AIのためのAPI.AI、アウトプットのためのAmazonのPolly)、すべてが機能しています。iOS上のマイク入力からの音声アクティビティの検出
私が必要とするのは、マイクを常にオンにして、ユーザーの声の録音を開始および終了するときに自動的に録音を開始および停止することです。このアプリは、ユーザーのための画面へのアクセスがない(しかし、彼らはテキストを記録するためのハイエンドのショットガンのマイクを持っている)非正統的なコンテキストのために開発されています。
私の研究では、このパズルは「音声活動検出」として知られており、音声ベースのAIシステム全体の中で最も難しいステップの1つと考えられます。
私は、誰かがこれを実装するための簡単な(Swift)コードを提供したり、このプロジェクトで実装できるいくつかのまともなライブラリ/ SDKの方向性を指摘したいと考えています。
ありがとうございました!私は実際にはすでにそのライブラリのiOSポートに手を差し伸べていますが、既存のオーディオファイルを指すのではなく、マイクから出てくるバッファにどのように適用するかはまだまだ不十分です...ヒント?コードサンプル? –
このAPIはフレーム単位で処理されるため、バッファを処理する際に問題はありません。 –