は、あなたがこのようになりますCMU's phonetic data set入力をしたいと言う:マシン:英語の発音を学ぶ
ABERRATION AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z
ABERT AE1 B ER0 T
ABET AH0 B EH1 T
ABETTED AH0 B EH1 T IH0 D
ABETTING AH0 B EH1 T IH0 NG
ABEX EY1 B EH0 K S
ABEYANCE AH0 B EY1 AH0 N S
(単語が左にある、右にkey here、音素のシリーズです)
あなたは新しい単語を取り、それがどのように英語で発音されるのかを推測する機械学習システムのトレーニングデータとして使用します。
少なくとも音素にマップできる固定されたトークンサイズの文字がないので、私にはあまり分かりません。私は、マルコフ連鎖と何かが正しい方法かもしれないと感じています。
どうすればよいですか?
CMUとmobyの両方のデータは、アメリカの発音のためのもので、英国やその他の英国の品種には、非常に良い音素のセットがありません。実際、CMUとmobyデータでさえ、音素の異なるセットを持っています。 moby pronunciatorはここにあります:http://icon.shef.ac.uk/Moby/mpron.html – hippietrail