2016-07-21 13 views
0

私がしたいことは、Pythonで 'Shazam'や 'SoundHound'と同じです。音声入力を取得する&Pythonで似たようなサウンドを探す

たとえば、サウンド(ドアスラムなど)を作成するときに、サウンドリストで最も類似したサウンドデータを見つけます。

私は英語が悪いので理解できませんが、「シャザム」のサウンドバージョンを想像してみてください。

「Shazam」には公開APIがありません。 「シャザム」のようなAPIはありますか? または どうすれば実装できますか?

答えて

2

使用できるライブラリはいくつかありますが、サンプルを「ドアシャット」として分類するものはありません。しかし、これらのライブラリを使用して特徴抽出を行い、サウンドのデータセットを構築/取得し、クラシファイアを構築し、トレーニングし、それを健全な分類に使用することができます。

ライブラリ:

  1. Friture - Fritureは、リアルタイムに音声入力の時間周波数解析を行うために設計されたグラフィカルなプログラムです。これは、スコープ、スペクトラムアナライザ、ローリング2Dスペクトログラムなどのオーディオデータを表示する一連のビジュアライゼーションウィジェットを提供します。

  2. LibXtract - LibXtractは、オーディオ機能抽出機能のシンプルでポータブルな、軽量のライブラリです。ライブラリの目的は、抽出階層を作成するために「カスケード」されるように設計された比較的包括的なフィーチャ抽出のセットを提供することです。

  3. Yaafe - もう1つのオーディオ機能エクストラクタは、オーディオ分析のツールボックスです。使いやすく、効率的に多数のオーディオ機能を抽出できます。サポートされているWAVファイルやMP3ファイル、C++、Python、Matlabなどのアプリケーションに埋め込むことができます。

  4. Aubio - Aubioは、オーディオ信号から注釈を抽出するためのツールです。その機能には、攻撃の前にサウンドファイルを分割し、ピッチ検出を実行し、ビートをタップし、ライブオーディオからMIDIストリームを生成することが含まれます。

  5. LibROSA - オーディオと音楽分析のためのpythonモジュール。使いやすく、音楽分析によく使われる多くの機能を実装しています。

あなたは、私が上記の言及としての私の助言を使用することを選択しない場合、私は機械学習ライブラリとして scikit-learnにお勧めします。それはあなたが使用したいかもしれない多くの分類子を含んでいます。

0

ここでの問題は、音楽が構造を持っていることですが、探したいサウンドには異なる署名がある可能性があります。ドアを例として使用すると、ドアの重さ、サイズ、材質だけが生成する音響署名の種類に影響します。類似性で検索したい場合は、機能豊富な方法が簡単に使えるかもしれません。しかし、サウンドのスペクトログラムに沿ってスライディングウィンドウでサンプルを取り、あなたが録音した前のサウンド、サウンドの分解などと(類似性によって)一致させようとするなど、さまざまなアプローチがあります。

関連する問題