13

それはhttp://www.google.com/speech-api/v2/recognize?...Google Speech Recognition API:各単語のタイムスタンプ?

例にリクエストをすることによって、オーディオファイル(WAV、MP3、など)用の転写を得るために、Googleの音声認識APIを使用することが可能です:私は「5用1 2 3」と述べている中でWAVファイル。それは時間(秒)を取得することが可能である各単語を言われた時:GoogleのAPIは、私にこの

{u'alternative': [{u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'}, 
{u'transcript': u'one two three four five'}], u'final': True} 

質問を与えますか?私の例では

:00:00.23と00:00:

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc. 

語 "1" は、時間00の間で言われている、すなわち00.80、
言葉 "2" が言われています00:00:01.03と00:00:01.45(秒単位)の間012:0:00:01.45(秒)

PS:英語以外の言語、特にフランス語をサポートするAPIを探しています。

+0

Hm? Afaics Googleのスピーチapi _does_フランス語をサポートしていませんか? – Ctx

+0

@Ctxはい、各単語のタイムスタンプをサポートしていません – Basj

答えて

8

Google APIでは不可能です。

あなたは単語のタイムスタンプをしたい場合は、例えば、他のAPIを使用することができます。

CMUSphinxを - 無料のオフライン音声認識API

SpeechMatics SaaS speech recognition API

Speech Recognition API from IBM

+0

ありがとう!これらの3つのAPIを試しましたか?彼らはGoogleと同じくらい良いですか?私は毎日、Googleの音声認識がどのように強力であるかに驚いています。 (私は自分のAndroidの携帯電話に私のテキストメッセージを(大声で)話す、そして電話はほとんど全く間違いない!) – Basj

+0

彼らは精度の点で同等でなければならない。 –

+0

悲しいことに、フランス語をサポートしていないようです。 – Basj

関連する問題