2016-05-03 106 views
1

SOX効果:私はこのSOXコマンドで遊んだスピーチを検出するための再トリガ沈黙

rec voice.wav silence 1 5 30% 1 0:00:02 30% 

入力音量がオーディオの転倒を30%のしきい値について提起し、2秒後に停止したときにそれは記録を開始する必要があります同じしきい値を下回っています。

これは機能します。しかし、それが "再トリガブル"になる可能性があれば、はるかに良いでしょう。つまり、オーディオがしきい値を下回り、オーディオが再び上昇した後、登録を継続する必要があります(つまり、ユーザーはまだ話しています)。

2秒間にわたって無音を検出した場合にのみ停止します。 他の「VOX」ツールをお勧めしますか?

+0

次のように書かれています:「期間が短いほど、音声がそれ以上コピーされない前に存在する必要がある無音の期間を指定します。より長い期間を指定することで、必要な無音を音声に残すことができます。途中で1秒の沈黙があり、最後に2秒の沈黙がある曲がある場合、2秒間の持続時間を使用して中期の沈黙をスキップすることができます。だから私は期待どおりに動作しなければならない。 – Mark

答えて

1

私はVOXを行うためにSOXを実験するのに多くの時間を費やしてきましたが、それはかなりうまく動作するようになっています。私は...結果の波形を表示するためにはAudacityを使用してきた、と次SOXコマンドに落ち着いてきた

rec snd.wav silence 1 .5 2.85% 1 1.0 3.0% vad gain -n : newfile : restart 

これは以下となります。それはのためのしきい値を超える活動を聞くまで

  • 待ち0.5秒2.30%)
  • 可聴状態が1秒間ゼロになると録音を停止する(... 1 1.0 3.0%)
  • 音声検出までの最初の無音をトリムする( vad)
  • は(ゲイン-n)
  • 店新しいファイルに結果(snd001.wav、snd002.wav)
  • 再起動「沈黙」の番号を取得するプロセス

ゲインを正規化する多くの関与正しいです試行錯誤を繰り返し、周囲の雑音やマイクの感度にも左右されます。私はLogitech QuickCam IMで、USB経由のRaspberry Piでマイクを使用しています。私は環境でこの変数を作成するまで、サイドノートで

は、この全体の事は... ...以下で

rec FAIL formats: can't open input `default': snd_pcm_open error: No such file or directory 

を文句:再び

export AUDIODEV=hw:1,0 

を - これは関与「沈黙」の値を使って多くの実験を行い、環境に合わせて調整が必要になります。

関連する問題