Googleクラウドスピーチ：単語の開始時刻

Google Cloud Speechを使用して長い形式のナレーションされたオーディオファイルを変換すると、オーディオファイルの各フレーズの開始時刻を知る必要があります。 Google Cloud Speechでこれを行う方法はありますか？私は現在transcribe_async.pyで働いています。おかげさまで Googleクラウドスピーチ：単語の開始時刻

出典

2017-02-10 Hephaestus

これはGoogle Cloud Speechでは不可能です。その情報が重要な場合は、他のASRシステムを参照する必要があります。私はKaldiとCMU SphinxのようなオフラインでホストされていないASRシステムがあなたにこの情報を与えることを知っています。私はASRシステムがその情報を提供できるのかどうか、それをどのホストされているのか分かりません。

出典

2017-02-11 06:19:12 blambert

助けてくれてありがとう！ – Hephaestus

enableWordTimeOffsetsオプションをTrueに設定すると、各単語の開始時刻と終了時刻（オーディオトラックの先頭から）を得ることができます（https://cloud.google.com/speech/docs/async-time-offsets）。

トランスクリプトの最初の単語の開始時刻は常に0であり、私の知る限り、各単語の開始時刻は前の単語の終了時刻（一時停止がある場合）に対応することに注意してください。

出典

2018-02-19 16:31:46

Googleクラウドスピーチ：単語の開始時刻

答えて

関連する問題