私の目標は、earlier questionから、C#のWAVファイルのDTMFトーンを検出することです。しかし、私はこれがどうやってできるのか理解するのは本当に苦労しています。WAVファイルからDTMFをデコードする
私はDTMFが周波数の組み合わせを使用し、Goertzelアルゴリズムを使用できると理解しています...何とかして。私はゲルツェルコードスニペットをつかんでいると私は(8kHzのモノラル16ビットPCM WAVのファイルを、読み取るためにNAudioを使用して)それに.WAVファイルを無理に勧めてみた:
using (WaveFileReader reader = new WaveFileReader(@"dtmftest_w.wav"))
{
byte[] buffer = new byte[reader.Length];
int read = reader.Read(buffer, 0, buffer.Length);
short[] sampleBuffer = new short[read/2];
Buffer.BlockCopy(buffer, 0, sampleBuffer, 0, read/2);
Console.WriteLine(CalculateGoertzel(sampleBuffer,8000,16));
}
public static double CalculateGoertzel(short[] sample, double frequency, int samplerate)
{
double Skn, Skn1, Skn2;
Skn = Skn1 = Skn2 = 0;
for (int i = 0; i < sample.Length; i++)
{
Skn2 = Skn1;
Skn1 = Skn;
Skn = 2 * Math.Cos(2 * Math.PI * frequency/samplerate) * Skn1 - Skn2 + sample[i];
}
double WNk = Math.Exp(-2 * Math.PI * frequency/samplerate);
return 20 * Math.Log10(Math.Abs((Skn - WNk * Skn1)));
}
私が何を知っています私はやっている間違っている:私はバッファを介して反復し、一度に小さなチャンクのGoertzelの値を計算する必要があると仮定 - これは正しいですか?
第2に、私はGoertzelメソッドの出力が私に言っていることを本当に理解していません。ダブル(例:210.985812
)が返されますが、私はそれを存在の値とオーディオファイルのDTMFトーン。
私は答えを探すためにどこでも検索しました。thisで参照されているライブラリを含みます。残念ながら、コードhereは(サイトのコメントに記載されているように)動作していないようです。 TAPIExが提供する商用ライブラリがあります。私は評価ライブラリを試してみましたが、必要なものを正確に実行しますが、電子メールには応答しません。実際に製品を購入することには注意が必要です。
おそらく私は正確な質問がわからないときに答えを探していますが、最終的には.WAVファイルでDTMFトーンを見つける方法が必要です。私は正しい行にいますか?もしそうでなければ、誰かが正しい方向に私を向けることができますか?
EDIT:@Abbondanzaのコードをベースにして、オーディオファイルの小さな部分をドリンプフィードする必要がある(おそらく根本的に間違っている)という仮定では、 of-conceptのみ)コード:
const short sampleSize = 160;
using (WaveFileReader reader = new WaveFileReader(@"\\mac\home\dtmftest.wav"))
{
byte[] buffer = new byte[reader.Length];
reader.Read(buffer, 0, buffer.Length);
int bufferPos = 0;
while (bufferPos < buffer.Length-(sampleSize*2))
{
short[] sampleBuffer = new short[sampleSize];
Buffer.BlockCopy(buffer, bufferPos, sampleBuffer, 0, sampleSize*2);
var frequencies = new[] {697.0, 770.0, 852.0, 941.0, 1209.0, 1336.0, 1477.0};
var powers = frequencies.Select(f => new
{
Frequency = f,
Power = CalculateGoertzel(sampleBuffer, f, 8000)
});
const double AdjustmentFactor = 1.05;
var adjustedMeanPower = AdjustmentFactor*powers.Average(result => result.Power);
var sortedPowers = powers.OrderByDescending(result => result.Power);
var highestPowers = sortedPowers.Take(2).ToList();
float seconds = bufferPos/(float)16000;
if (highestPowers.All(result => result.Power > adjustedMeanPower))
{
// Use highestPowers[0].Frequency and highestPowers[1].Frequency to
// classify the detected DTMF tone.
switch (Convert.ToInt32(highestPowers[0].Frequency))
{
case 1209:
switch (Convert.ToInt32(highestPowers[1].Frequency))
{
case 697:
Console.WriteLine("1 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 770:
Console.WriteLine("4 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 852:
Console.WriteLine("7 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 941:
Console.WriteLine("* pressed at " + bufferPos);
break;
}
break;
case 1336:
switch (Convert.ToInt32(highestPowers[1].Frequency))
{
case 697:
Console.WriteLine("2 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 770:
Console.WriteLine("5 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 852:
Console.WriteLine("8 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 941:
Console.WriteLine("0 pressed at " + bufferPos + " (" + seconds + "s)");
break;
}
break;
case 1477:
switch (Convert.ToInt32(highestPowers[1].Frequency))
{
case 697:
Console.WriteLine("3 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 770:
Console.WriteLine("6 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 852:
Console.WriteLine("9 pressed at " + bufferPos + " (" + seconds + "s)");
break;
case 941:
Console.WriteLine("# pressed at " + bufferPos + " (" + seconds + "s)");
break;
}
break;
}
}
else
{
Console.WriteLine("No DTMF at " + bufferPos + " (" + seconds + "s)");
}
bufferPos = bufferPos + (sampleSize*2);
}
これはAudacityで表示されるサンプルファイルです。私は
と...それほとんど作品pressed-たDTMFのキー押下に追加しました。それは3秒になり、その後、それが落ち着くし始めるまで...
9 pressed at 1920 (0.12s)
1 pressed at 2880 (0.18s)
* pressed at 3200
1 pressed at 5120 (0.32s)
1 pressed at 5440 (0.34s)
7 pressed at 5760 (0.36s)
7 pressed at 6080 (0.38s)
7 pressed at 6720 (0.42s)
5 pressed at 7040 (0.44s)
7 pressed at 7360 (0.46s)
7 pressed at 7680 (0.48s)
1 pressed at 8000 (0.5s)
7 pressed at 8320 (0.52s)
:上記のファイルから、私はしかし、私のコードのレポート、でほぼ正確に3秒まで任意のDTMFを見るべきではありません正解:1
が押されたことを:
7 pressed at 40000 (2.5s)
# pressed at 43840 (2.74s)
No DTMF at 44800 (2.8s)
1 pressed at 45120 (2.82s)
1 pressed at 45440 (2.84s)
1 pressed at 46080 (2.88s)
1 pressed at 46720 (2.92s)
4 pressed at 47040 (2.94s)
1 pressed at 47360 (2.96s)
1 pressed at 47680 (2.98s)
1 pressed at 48000 (3s)
1 pressed at 48960 (3.06s)
4 pressed at 49600 (3.1s)
1 pressed at 49920 (3.12s)
1 pressed at 50560 (3.16s)
1 pressed at 51520 (3.22s)
1 pressed at 52160 (3.26s)
4 pressed at 52480 (3.28s)
を私は1.2を超えてAdjustmentFactor
をつり上げる場合、私はすべてではほとんど検出を取得します。
私はほとんどそこにいると感じますが、誰にも分かりませんが、私は行方不明です。
EDIT2:上記のテストファイルはhereです。上記の例では、adjustedMeanPower
47.6660450354638
であり、電力は次のとおり
DTMFファイルは少なくとも40msの長さで、少なくとも40msのスペースが必要です。 http://www.genave.com/dtmf-mark-space.htm –
を参照してください。また、検出する必要がある周波数は、http://www.genaveに従って697Hz、770Hz、852Hz、941Hz、1209Hz、1336Hzおよび1477Hzです。 com/dtmf.htm –
答えにコードスニペットを追加しました。あなたの問題について進歩を遂げるのに役立ったかどうか教えてください。 –