Swiftを使用して録音したオーディオファイルをテキストからテキストに変換する

iOS用のSwiftでオーディオを録音し、録音したオーディオファイルを再生できます。私が聞いているのは、録音されたオーディオファイルの背景ノイズ&のボリューム/デシベルをチェックすることができれば、スピーチのテキストフレームワークに十分であると判断できるかどうかです。フレームワークは問題ではなく、私は利用可能なすべてのものを研究しました。Swiftを使用して録音したオーディオファイルをテキストからテキストに変換する

AVFoundationやAccelerate Frameworkやその他のフレームワークで録音したオーディオファイルを解析して、音声ファイルが音声/テキストフレームワークで処理するのに十分かどうかを調べることができるのは不思議です。

私は多くのオーディオ知識は持っていませんが、少し調べたところ、録音中にピークと平均デシベル値を得ることができましたが、バックグラウンドノイズはどうですか？

スウィフトを使用して録音したオーディオファイルを分析する際に役立つ情報があります。

出典

2016-07-06 Tom Spee

「swift」と「objective-c」は、リアルタイム優先度で実行されている深刻なプログラムのDSPスレッドではほとんど見つからない高水準言語です。どうして？問題を探しているのでなければ、快適なもの（オブジェクトの割り当て、メモリー管理、ポーリング＆ブロッキングなど）はリアルタイムスレッドでは実行できないためです。 DSPコードでは、_fast_を実行することが重要です。したがって、あなたはUIやコントローラを 'swift'で書くことができますが、SNR推定のようなDSP部品の最も安全な賭けは_plain-C_に落ちるでしょう。 – user3078414

SNR推定はかなりよく開発されたドメインです。スピーチからのノイズを分離し、次にノイズエネルギーと信号エネルギーを別々に計算して比率を計算するボイスアクティビティ検出器を実装する必要があります。これは単純な数学をはるかに超えていますが、Wada SNRのような合理的なアルゴリズムを実装するために統計を理解する必要があります。hereが実装されています。

Swiftでその実装を見つけることはできません。そのようなソフトウェアは通常CまたはMatlabで実装されているため、実装を移植する必要があります。

ノイズ推定は、音声認識と比較してマイナーな問題であり、はるかに高度なアルゴリズムが必要です。スウィフトでの音声認識のための既存パッケージは、TLsphinxまたはOpenEarsのように考える方が良いでしょう。

出典

2016-07-06 10:28:43

ありがとうございます。したがって、私が検索した限り、Swift/Objective-CのSNRまたはVADに対する解決策はありません。音声認識はすでに動作していますが、提案に感謝します。私は、録音中にaudioRecorderからdB単位で返される平均パワーとピークパワーを分析することができます。 –

@Nikolay Shmyrev私はwada snrを使いたいです。あなたが言及したフォルダをダウンロードしたが、私はそれをインストールする方法を知らない。いかなる文書も見つかりませんでした – MAS

@Nikolay Shmyrev私は似たようなことに関して新しい質問を始めました – MAS

Swiftを使用して録音したオーディオファイルをテキストからテキストに変換する

答えて

関連する問題