2017-04-26 7 views
1

私は、ポケットフィックスを使用してオーディオをテキストに変換しています。それはうまく動作します。今、私は各単語のタイムスタンプを取得したい。これは私のコードです:pocketsphinx pythonのタイムスタンプが間違っています

import speech_recognition as sr 

r = sr.Recognizer() 
framerate = 100 
with sr.AudioFile("1.wav") as source: 

    audio = r.record(source) 

    decoder = r.recognize_sphinx(audio, show_all=False) 

    print ([(seg.word, seg.start_frame/framerate)for seg in decoder.seg()]) 

ドキュメントによると、デフォルトのフレームレートは100です。私は各単語の開始時刻を知っています。ただし、間違っています。差は2秒、場合によっては3秒以上です。

これは既知の問題ですか、何か不足していますか?

答えて

1

レートは1/100だったので、プロジェクトでは1/100の代わりに1/10のように分割しましたが、結果は実際にはうまくいきました。私は0.1または0.01で割ることを提案し、それが何を提供するかを見てください。あなたのコードのためにそう

だけでこれらの変数を試してみる:

framerate = .1 

OR

framerate = .01 
関連する問題