2011-11-27 6 views

答えて

18

これは、ツールキットの掛け声で可能です:http://shout-toolkit.sourceforge.net/index.html

これは、C++で書かれており、Linux用のテストが、それはまた、WindowsやOSXで実行する必要があります。

このツールキットは私のPhDの自動音声認識(ASR)研究の副産物でした。 ASRのためにそれを使用することは、それほど単純ではありませんが、Speech Activity Detection(SAD)とdiarization(特定の人物のすべての発言を見つけること)では、非常に使いやすいです。次に例を示します。

  1. 16KHz、16ビット、リトルエンディアン、モノラルのヘッダーレスpcmオーディオファイルを作成します。 ffmpeg -i [INPUT_FILE] -vn -acodec pcm_s16le -ar 16000 -ac 1 -f s16le [RAW_FILE]リトルエンディアンエンコードファイルサイズ(4バイト)でヘッダーレスデータにプレフィックスを付けます。 shout_clusterは拡張子に基づいてファイルタイプを検出するため、ファイルに.raw拡張子が付いていることを確認してください。

  2. は、音声/非音声のセグメンテーションを実行します。 ./shout_segment -a [RAW_FILE] -amsは[SHOUT_SAD_MODEL] -mo [SAD_OUTPUT] 出力ファイルは、誰かがラベル(話しているセグメントを提供しますもちろん、それはすべて自動的に行われるので、音声ではない音(「SOUND」)、または沈黙(「SILENCE」)があるシステムでは間違いが起きる可能性があります。

  3. がdiarizationを実行します。 ./shout_cluster -a [RAW_FILE] -mo [DIARIZATION_OUTPUT] -mi [SAD_OUTPUT] はshout_segmentの出力を使用して、それが記録にアクティブだったどのように多くの講演者を決定しようとします各スピーカー( "SPK01"、 "SPK02"など)にラベルを付け、各スピーカーのすべてのスピーチセグメントを見つけます。

私はこれが役立つことを願っています!

+0

はあなたの答え、Marijnのため、およびステップのあなたの出品をありがとう!この言語は独立していますか?つまり、ヘブライ語や日本語などで動作しますか?(驚くべきことに、これらの "おそらく、このような異国的な言語のため、この例ではおそらく選ばれました"というのは正確に必要な言語です:) – Avi

+0

私はちょうど2番目のコマンドでこのコマンドと端末をフリーズしました。 Ubuntu 17.10。おそらく、私がこの指示について何もしなかったからかもしれません。「ヘッダーレスのデータにリトルエンディアンのエンコードファイルサイズ(4バイト)を付ける」。これは本当ですか?それ、どうやったら出来るの? – Roman

2

上記の回答は正確ですが、SHoUTをインストールする際に、Linuxでインストールに関する問題が発生しました。 undefined reference to pthread_joinそのソリューション私が叫ぶのインストールzipからconfigure-make.shを開き、に変更に

CXXFLAGS="-O3 -funroll-loops -mfpmath=sse -msse -msse2" LDFLAGS="-lpthread" ../configure 

NOTE

CXXFLAGS="-O3 -funroll-loops -mfpmath=sse -msse -msse2" LDFLAGS="-pthread" ../configure 

lpthreadラインを変更することがわかりましたLinuxシステムのpthread

OS:シャウトバージョンのLinuxのミント18 :リリース-2010-バージョン-0-3

+0

あなたの答えをありがとう、男!あなたは最終的に何かをうまく認識することができましたか? – Roman

+0

SHoUT-いいえ、私はPythonに切り替えました。これは音声分析のサポートが優れているからです。 –

関連する問題