音声ファイルと音声ファイルを比較し、それらが一致するかどうかを判断する方法はありますか?たとえば、iPhoneアプリケーションに「apple」と言うと、オーディオを録音して、それを「apple」と言われる人の録音済みオーディオファイルと比較したいと思います。 2つの話し言葉が一致すると判断できるはずです。音声語と音声ファイルをどのように比較しますか?
この種の音声ベースのオーディオファイルのマッチングを実行するために、どのようなアルゴリズムやライブラリを使用できますか?
音声ファイルと音声ファイルを比較し、それらが一致するかどうかを判断する方法はありますか?たとえば、iPhoneアプリケーションに「apple」と言うと、オーディオを録音して、それを「apple」と言われる人の録音済みオーディオファイルと比較したいと思います。 2つの話し言葉が一致すると判断できるはずです。音声語と音声ファイルをどのように比較しますか?
この種の音声ベースのオーディオファイルのマッチングを実行するために、どのようなアルゴリズムやライブラリを使用できますか?
スフィンクスは、音声認識を行い、pocketSphinxはブライアン・キングによってiPhoneに移植されてい
彼は優秀な詳細を提供し、それが簡単にあなた自身のために実装できるようになりましたhttps://github.com/KingOfBrian/VocalKit
チェック。私は彼の例を実行し、それを自分自身で修正しました。
このライブラリの基本的な使用例を教えてください。私はVKControllerオブジェクトを初期化しようとしましたが、成功しませんでした。 (明らかにいくつかの* .confファイルの必要性があります。) – Rizon
ニューラルネットワークライブラリを使用して、異なる音声パターンを認識するように教えることができます。これには、ニューラルネットワークの一般的な理論の背後にある方法と、それらがどのようにして特定の方法で動作するシステムを作成するためにどのように使用されるのかを知る必要があります。主題について何も知らない場合は、基礎だけで始めることができ、自分で何かを実装するのではなく、図書館を使うことができます。希望が役立ちます。
アコースティックフィンガープリンティングを検索するには、下のウィキペディアのリンクを参照してください。 Shazamは基本的に音楽のためにそれをやっています。
私はこの質問が古いですけど、今日はこのライブラリを発見:
アンドロイド版をお持ちであれば、彼らのページには「info @ ispikit.comにお問い合わせください」と明記されています。 – Scoregraphic
はい、それは仕事です。あなたが自分でしなければならない仕事。 – Jasarien