2017-12-12 8 views
0

私は以下のようにnltk字形解析ツールを使用しています。 字句解析の問題(nltk)

from nltk.stem import WordNetLemmatizer 
lemmatizer = WordNetLemmatizer() 
mystring = "the sand rock needed to be mixed and shaked well before using it for construction works" 
splits=mystring.split() 
mystring = " ".join(lemmatizer.lemmatize(w) for w in splits) 
print(mystring) 

は、私は(下記)を得る出力で、出力はしかし

sand rock need to be mix and shake well before use it for construction work 

であることを期待しています、それは、その塩基形態に変化していないなどneeded, mixed, shaked, usingなどの単語のように思えます。

sand rock needed to be mixed and shaked well before using it for construction work 

この問題を解決する方法はありますか?

答えて

0

最後の2行目をこれに置き換えることができます。

mystring = " ".join(lemmatizer.lemmatize(w,pos ='v') for w in splits) 

posは品詞タグです。

+0

これは疑問に答えるかもしれませんが、答えの本質的な部分とOPコードの問題点について説明する方がよいでしょう。 – pirho