0
私は、テキストを音声に変換し、付随するメタデータと共に各単語の出現間隔とその期間について提供したいと思います。だから、音声と付随するメタデータ
かもしれない "犬が食べた":最後.3s 犬、0を起動します。.5sを開始し、終了.8s は食べ:.11sを開始し、終了.14s
は変換テキストの方法がありますその音声ファイルを通ってポーズを探している以外のデータを取得しています。 歓声
私は、テキストを音声に変換し、付随するメタデータと共に各単語の出現間隔とその期間について提供したいと思います。だから、音声と付随するメタデータ
かもしれない "犬が食べた":最後.3s 犬、0を起動します。.5sを開始し、終了.8s は食べ:.11sを開始し、終了.14s
は変換テキストの方法がありますその音声ファイルを通ってポーズを探している以外のデータを取得しています。 歓声
iSpeechは、優れた単語の位置マーカーをAPIで提供できる音声ソリューションを提供します。この情報は、http://www.ispeech.org/apiにあるAPIのセクション4にあります。しかし、他のsollutionsを聞いてみたいです。 乾杯。
ただ価格を見ています。それほど華麗ではない。 Theresはオープンソースの解決策になりました – dmonarch