1
私は、ポケットフィックスを使用してオーディオをテキストに変換しています。それはうまく動作します。今、私は各単語のタイムスタンプを取得したい。これは私のコードです:pocketsphinx pythonのタイムスタンプが間違っています
import speech_recognition as sr
r = sr.Recognizer()
framerate = 100
with sr.AudioFile("1.wav") as source:
audio = r.record(source)
decoder = r.recognize_sphinx(audio, show_all=False)
print ([(seg.word, seg.start_frame/framerate)for seg in decoder.seg()])
ドキュメントによると、デフォルトのフレームレートは100です。私は各単語の開始時刻を知っています。ただし、間違っています。差は2秒、場合によっては3秒以上です。
これは既知の問題ですか、何か不足していますか?