オーディオ/サウンド拡張のためのニューラルネットワーク

サウンドを他のサウンドにマッピングするために使用するニューラルネットアーキテクチャのタイプは何ですか？ニューラルネットはシーケンスから他のシーケンスに移行することを学ぶ上で素晴らしいので、サウンドの増強/生成は非常に一般的なアプリケーションのようです（残念ながら、それと、他の2つのブログ記事）。オーディオ/サウンド拡張のためのニューラルネットワーク

同じ長さの入力音/出力音のデータセットが十分に大きいと仮定すると、データはどのようにフォーマットされますか？おそらく、スペクトログラム（cycleGANやpix2pixのようなもの）でCNNを鍛えたり、WAVファイルの実際のデータを使用したり、LSTMを使用したりしますか？誰も聞いたことのない奇妙なアーキテクチャのいくつかの他のタイプがありますか？私を助けてください！

出典

2017-07-13 Robbie Barrat

答えは高速フーリエ変換を使用してデータを管理可能な状態にしてから、通常CNNではなくデータを処理するためにRNNまたはLSTMを使用します。

出典

2017-07-13 17:32:19

オーディオ/サウンド拡張のためのニューラルネットワーク

答えて

関連する問題