私はテキスト内の単語を字形化しようとしています。次のように私はNLTKのWordNet Lemmatizer
を使用しています「漬物」例えばLIKE「ピクルス」に変わります、「RUN」に「走り」、「レーズン」「レーズン」になどNltkのwordnet lemmatizerはすべての単語を非文字化していません
:
from nltk.stem import WordNetLemmatizer
>>>
>>> lem = WordNetLemmatizer()
>>> print(lem.lemmatize("cats"))
cat
>>> print(lem.lemmatize("pickled"))
pickled
>>> print(lem.lemmatize("ran"))
ran
したがって、'pickled'
と'ran'
のように、出力が期待どおりに出力されません。どのように'pickle'
と'run'
を得るには'v'
(動詞)などを指定する必要はありません。
方法についての[POSタグ](http://www.nltk.org/api/nltk.tag.html#nltk.tag.pos_tag)? – lenz