2012-02-04 11 views
0

オンラインオーディオビジュアルデータをオーディオコンテンツに基づいてセグメント化して分類する必要があるプロジェクトで作業したい、つまり、オーディオビジュアルデータのさまざまな部分がセグメント化され、無音、音楽、スピーチ、スピーチ+バックグラウンドミュージックなどを含むことができる。オンラインオーディオビジュアルデータのオーディオコンテンツ解析

私はオーディオビジュアルデータからオーディオ部分を取得し、ゼロ交差、スペクトルピークなどの機能を抽出し、オーディオデータをセグメント化するためにセグメント境界を見つけなければならないことを知っています。

しかし、私は最初に失われています。

私はこのプロジェクトでどのように始めるべきか分かりません。ソフトウェアの出力は、誰かが私にはプログラミング言語は、この目的のために便利である

  • を知ることができます場合、それは本当に便利になるなど、

    沈黙、スピーチ、音楽のようなさまざまなカテゴリの下にオーディオビジュアルデータのセグメントであります?

  • このソフトウェアを開発するためには、どの手順を実行する必要がありますか?

デジタル信号処理の背景がありません。もし私がいくつかのガイダンスを得たら本当に助けになるでしょう

答えて

0

GStreamerのようなマルチメディアフレームワークを調べることをお勧めします。それはクロスプラットホームですが、それが起源のLinuxで始めるのが一番簡単です。すでにオーディオとビデオを受信、デマルチプレクサ、デコードするためのあらゆる種類のプラグインが付属しています。また、2つのアナライザ(オーディオおよび音声アクティビティ検出用のレベルアナライザおよびスペクトラムアナライザなど)も備えています。それらはあなたの実験の出発点になるかもしれません。 Gstreamer自体はC言語で書かれていますが、アプリケーションはPython、Perl、C#、C++、Javaなどの言語バインディングを使用できます。