2
私はトークン化したテキストを持っていますが、一般的には単語のリストもOKです。たとえば:Pythonでトークン化されたテキストで複数単語の用語を見つける
>>> from nltk.tokenize import word_tokenize
>>> s = '''Good muffins cost $3.88\nin New York. Please buy me
... two of them.\n\nThanks.'''
>>> word_tokenize(s)
['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.',
'Please', 'buy', 'me', 'two', 'of', 'them', '.', 'Thanks', '.']
私は、単一の単語だけでなく、マルチワードキーが含まれているPythonの辞書を持っている場合は、どのように私は、効率的かつ正確にテキストで自分の存在を確認することができますか?理想的な出力はkey:location_in_textペア、または便利なものです。 ありがとうございます!
P.S. "正しく"説明する - 私は私のdictに "リース"がある場合、私はマークしてくださいしたくないです。また、複数形の認識が必要です。私はこれが多くのif-else節なしでエレガントに解決できるかどうか疑問に思います。
を使用することができます。少しは報告します。本当にありがとう! –
答えが助けてうれしいです。 – alvas