0
サウンドを他のサウンドにマッピングするために使用するニューラルネットアーキテクチャのタイプは何ですか?ニューラルネットはシーケンスから他のシーケンスに移行することを学ぶ上で素晴らしいので、サウンドの増強/生成は非常に一般的なアプリケーションのようです(残念ながら、それと、他の2つのブログ記事)。オーディオ/サウンド拡張のためのニューラルネットワーク
同じ長さの入力音/出力音のデータセットが十分に大きいと仮定すると、データはどのようにフォーマットされますか?おそらく、スペクトログラム(cycleGANやpix2pixのようなもの)でCNNを鍛えたり、WAVファイルの実際のデータを使用したり、LSTMを使用したりしますか?誰も聞いたことのない奇妙なアーキテクチャのいくつかの他のタイプがありますか?私を助けてください!