2016-09-06 18 views
1

私は音声処理に新しいです。だから私の無知を許してください。私は短い音声信号(10秒)を与えられ、MATLABまたはWavesuferソフトウェアを使用して手作業で注釈を付けるよう求められました。今、スピーチ信号のピッチを見つける方法は?問題を解決するための理論的リソースはありますか?私はWavesurferを使って信号のピッチ輪郭をプロットしようとしました。そうでしょうか?音声信号の手動ピッチ推定

編集1:私の研究は、私たちのデータにさまざまなピッチ検出アルゴリズムを適用し、その精度を比較しています。したがって、手動で注釈を付けたピッチが参照として機能します。

更新1:EGG(dEGG)シグナルを差別化することによりGCI(声門閉鎖法)を得、dEGGのピークはGCIである。連続する2つのGCI間の時間間隔はピッチ周期である。ピッチ周期の逆数は、ピッチ(hz)である。

UPDATE 2:SIGMAは、自動GCI検出の有名なアルゴリズムです。

ありがとうございました。

+0

http://www.seas.ucla.edu/spapl/paper/IS110135.pdf – Dschoni

+0

ピッチを見つけるには多くの方法がありますが、本当の疑問は「手作業で注釈を付ける」という意味です - スピーチのピッチ50Hzと500Hzの間に存在するので、最初に行うべきことは、低音をフィルターにかけて、ハーモニクスの一部を取り除くことです。単にピッチを手動で決定したいのであれば、私はSTFT(スペクトログラム)や蝸牛神経のような変形を使用することをお勧めします。 – GameOfThrows

+0

@GameOfThrows私の仕事は、私たちのデータにさまざまなピッチ検出アルゴリズムを適用し、その精度を比較することです。したがって、手動で注釈を付けたピッチが参照として機能します。 – gokul

答えて

1

通常、グラウンドトゥルースはEGG録音に伴う信号で得られます。 EGGはElectrogastrogramの略語であり、真のピッチを記録する特殊なデバイスです。

私はあなたがそのようなデバイスにアクセスしているかどうかわからないので、その作業のために注意深く準備されたピッチ抽出評価のために既存のデータベースを使用することをお勧めします。あなたはhereをダウンロードできます。このデータは、University of EdinburghでPaul Bagshawによって収集されたものです。

私はあなたも彼の論文を読むことをお勧めします。

ピッチ抽出チェックの最新アルゴリズムであるhttps://github.com/google/REAPERと比較したい場合は、また、「真の」ピッチは、後続のアルゴリズムにとって最良の特徴ではないことに注意してください。たまには、間違いでピッチを抽出するかもしれませんが、たとえば音声認識の精度が向上します。詳細はthis publicationを確認してください。

+0

私は実際に私と対応する信号のEGG信号を持っています。 – gokul

+1

その後、EGGからREAPERを使って単純にピッチを抽出することができます。これは地面の真理です。この方法を確認するには、http://tcts.fpms.ac.be/publications/papers/2013/icassp2013_obtdndatd.pdfセクション3を参照してください。2 Ground Truth –

+0

ありがとうございました。本当に役に立ちました。 – gokul

関連する問題