私は個人的な研究プロジェクトに取り組んでいます。波形の比較
私の目的は、サウンドを認識し、それがIPAに属しているかどうかを、自分のデータベースの波形と波形を比較することによって識別できるようにすることです。私はMathematica、SciPy、PyBrainにいくつかのスキルを持っています。
最初の段階では、私は英語(米国)音標のみを使用しています。 私はオンラインで見つけた英単語音声ファイルのテストバンクを持っています。ここでのトリックは
私は別の音節に対応する波形に分離したいと思っています。これは学習アルゴリズムをとるでしょう。だから、「私はリンゴが好きです」という言葉を、その文を構成する音節の波形に切り詰めます。
各波形は、英語PAの波形と比較されます。私はこの部分をどうやって行うのか分からない。 Praatを使用して波形を検出し、波形の画像をキャプチャし、画像解析(これは楽しいことです)でデータベースに保存された波形と比較します。
ここでのダメージは、Praatが波形ファイルを自動的に生成し、それを音節間で自動的に波形チャンクにする方法を知らないことです。論理的には、学習アルゴリズムのテストケースを準備し、それを行うよう教えるだけです。
波形のイメージを必要とする代わりに、高速フーリエ変換でこれを行い、エラーのx%以内の2つのfftを比較してもよろしいですか?
アドバイスやご意見はありがとうございます。あなたのお時間をありがとうございました。
私は本当に入力を感謝します! 今日のMatlabでfftを使ってみたところ、本当に醜いベクトルでした。私はリンクを調べるつもりです。 私は実際にPythonにもっと慣れています。私はリンクを調べます。これは素晴らしいスタートです。私は現場でいくつかの論文を探し、音の分析のためにfftを使用するのは... featです。 これは私がウサギの穴にいた間、私が終わったところである: https://core.ac.uk/download/pdf/35379497.pdf 私はちょうど今、トークボックスに取得しています(あなたのおかげで)とそれはこれまでのところ非常に有望に見えます。 – Yarou
次の月は文献を見直すだけです:)。私はそれがあなたの後ろではないことを知っていますが、あなたはもう一方の方法を試してみることができます:スピーチからテキストまで、そして単純に音節を抽出してください。既存のライブラリをPythonで数時間で修正することができます。このようにして、音声認識に入れられたすべての作業を利用し、必要なものを得るために正規表現を適用することができます。あなたは非常に良い結果を得るべきです。 –