1

Google Cloud Speechを使用して長い形式のナレーションされたオーディオファイルを変換すると、オーディオファイルの各フレーズの開始時刻を知る必要があります。 Google Cloud Speechでこれを行う方法はありますか? 私は現在transcribe_async.pyで働いています。おかげさまで Googleクラウドスピーチ:単語の開始時刻

答えて

1

これはGoogle Cloud Speechでは不可能です。その情報が重要な場合は、他のASRシステムを参照する必要があります。私はKaldiCMU SphinxのようなオフラインでホストされていないASRシステムがあなたにこの情報を与えることを知っています。私はASRシステムがその情報を提供できるのかどうか、それをどのホストされているのか分かりません。

+1

助けてくれてありがとう! – Hephaestus

0

enableWordTimeOffsetsオプションをTrueに設定すると、各単語の開始時刻と終了時刻(オーディオトラックの先頭から)を得ることができます(https://cloud.google.com/speech/docs/async-time-offsets)。

トランスクリプトの最初の単語の開始時刻は常に0であり、私の知る限り、各単語の開始時刻は前の単語の終了時刻(一時停止がある場合)に対応することに注意してください。

関連する問題