HTKが.wavファイルから生成したMFCC(メル周波数ケプストラム係数)ファイルがあります。私が必要とするのは、MFCCからタイムスパンを抽出することです。 MFCCファイルが90分の長さの音声を表す場合、例えば、オーディオの3分目のMFCC。MFCCファイルを操作しています
HTKの本は、MFCCファイルがヘッダーとサンプルの連続したシーケンスで構成されているとしています。しかし、サンプルの正確なサイズをバイト単位で判断するのは簡単ではないようです。
おそらくファイルのパーサーはありますか? (もちろんそこHTKでは、ですが、私は、このタスクのためのバイナリを使用する方法を見つけ出すことに成功しませんでした。)
それとも、サンプルのとの大きさを決定する簡単な方法があります単純にファイルを切り離すことができるように、ヘッダー?
設定ファイルで何が言及されるべきか教えてください。私はmp4/wavファイルのmfccを生成するhtkを使用しようとしている –