オンラインオーディオビジュアルデータをオーディオコンテンツに基づいてセグメント化して分類する必要があるプロジェクトで作業したい、つまり、オーディオビジュアルデータのさまざまな部分がセグメント化され、無音、音楽、スピーチ、スピーチ+バックグラウンドミュージックなどを含むことができる。オンラインオーディオビジュアルデータのオーディオコンテンツ解析
私はオーディオビジュアルデータからオーディオ部分を取得し、ゼロ交差、スペクトルピークなどの機能を抽出し、オーディオデータをセグメント化するためにセグメント境界を見つけなければならないことを知っています。
しかし、私は最初に失われています。
私はこのプロジェクトでどのように始めるべきか分かりません。ソフトウェアの出力は、誰かが私にはプログラミング言語は、この目的のために便利である
- を知ることができます場合、それは本当に便利になるなど、
沈黙、スピーチ、音楽のようなさまざまなカテゴリの下にオーディオビジュアルデータのセグメントであります?
- このソフトウェアを開発するためには、どの手順を実行する必要がありますか?
デジタル信号処理の背景がありません。もし私がいくつかのガイダンスを得たら本当に助けになるでしょう