これは、単語をその音素だけでなく、それに対応する部分文字列にも変換できるようにすることです。例えば、何かのように:単語の部分文字列へのアルファベットの音韻、Python
from nltk.corpus import cmudict
d = cmudict.dict()
...
print foo('perfect', d['perfect'])
>>> (['p','er','f','e','c','t'], [u'P', u'ER0', u'F', u'EH1', u'K', u'T'])
私は何かのNLTKの一部または私はに見ることができます広く利用可能なリソースが、これは歓迎されるであろう解決するだろう何のために願っています。
また、私はむしろ、cmudictで '完全な'部分文字列を検索する必要のないソリューションを望んでいます。時には部分文字列は完全な単語とは異なる発音をすることがあります。
ボーナス: 私は、複数の音素は、例えば(私が間違っている場合ではない言語学の人、私を修正)部分文字列に対応する必要がありますとき、これは難しいかもしれ実現:べきである、上記の場合
foo('ignoble', d['ignoble'])
>>> (['i','g','n','o','b', ['l', 'e'] ], [u'IH0', u'G', u'N', u'OW1', u'B', [u'AH0', u'L']]
をLとEの両方がAH0とLの両方に対応します。