0

サウンドを他のサウンドにマッピングするために使用するニューラルネットアーキテクチャのタイプは何ですか?ニューラルネットはシーケンスから他のシーケンスに移行することを学ぶ上で素晴らしいので、サウンドの増強/生成は非常に一般的なアプリケーションのようです(残念ながら、それと、他の2つのブログ記事)。オーディオ/サウンド拡張のためのニューラルネットワーク

同じ長さの入力音/出力音のデータセットが十分に大きいと仮定すると、データはどのようにフォーマットされますか?おそらく、スペクトログラム(cycleGANやpix2pixのようなもの)でCNNを鍛えたり、WAVファイルの実際のデータを使用したり、LSTMを使用したりしますか?誰も聞いたことのない奇妙なアーキテクチャのいくつかの他のタイプがありますか?私を助けてください!

答えて

0

答えは高速フーリエ変換を使用してデータを管理可能な状態にしてから、通常CNNではなくデータを処理するためにRNNまたはLSTMを使用します。

関連する問題