それはhttp://www.google.com/speech-api/v2/recognize?...
Google Speech Recognition API:各単語のタイムスタンプ?
例にリクエストをすることによって、オーディオファイル(WAV、MP3、など)用の転写を得るために、Googleの音声認識APIを使用することが可能です:私は「5用1 2 3」と述べている中でWAVファイル。それは時間(秒)を取得することが可能である各単語を言われた時:GoogleのAPIは、私にこの
{u'alternative': [{u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'},
{u'transcript': u'one two three four five'}], u'final': True}
質問を与えますか?私の例では
:00:00.23と00:00:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
語 "1" は、時間00の間で言われている、すなわち00.80、
言葉 "2" が言われています00:00:01.03と00:00:01.45(秒単位)の間012:0:00:01.45(秒)
PS:英語以外の言語、特にフランス語をサポートするAPIを探しています。
Hm? Afaics Googleのスピーチapi _does_フランス語をサポートしていませんか? – Ctx
@Ctxはい、各単語のタイムスタンプをサポートしていません – Basj