2017-11-27 9 views
-1

音楽分類などの機械学習の作業で長いオーディオクリップ(2分-5分、44.1kHz)を処理すると、人は何をしますか?機械学習で長いオーディオクリップを処理する方法は?

オーディオデータの次元数を減らすのに役立つダウンサンプリング以外の方法はありますか?

+0

あなたは、もう少し具体的にする必要があるとしています。 –

答えて

1

通常、スペクトログラムやMFCCのような周波数特性を抽出し、それらを分類します。生のオーディオよりも価値が低いので、分析が簡単です。

あなたは、いくつかのここスペクトログラムとMFCCの視覚化(音声に関連しますが、スケール)を見つけることができます何とかプーリングはCNNにおけるデータの次元を減少させることを

https://www.kaggle.com/davids1992/speech-visualization-and-exploration

注意。

スペクトル分析についてはこちらをご覧ください。彼らはまた、作業を開始しているが、あなたはめったにWaveNetのように、生の波で作業されていません:

https://deepmind.com/blog/wavenet-generative-model-raw-audio/