私はNLTKを初めて使用しており、ステミングケースでステマー機能を使用しています。NLTKステミングは単純なケースに合格しません
私は処理する簡単な例文を持っています: "ライトオンをオンにする"。私は、NLTKステマーがタイプミス「ライトイン」を除外するのに役立つかどうかを見たいと思っています。私は "ライティング"でステマーをテストしました。そしてsnowBallステマーは正しい単語 "light"を返しますが、snowBallステマーはテストで "lightin"を返します。
私の派生プロセスは非常に簡単です:
tokens = "Turn on the lightin"
for token in tokens:
print("SnowBall Lemmatizer: "+snowBallStemmer.stem(token))
NTLKのdocによると、snowBallStemmerは英語を止めるために使用することができます。私はsnowBallStemmerが "lightin"を止められなかった理由と、これを解決するために何ができるかを知りたい。
スノーボールステマーは、ルールベースなので、それを編集するのは簡単でなければなりません。 [source](http://www.nltk.org/_modules/nltk/stem/snowball.html#EnglishStemmer)を見てください。ステップ1bのリストに「in」を追加する必要があります。 (子クラスでこれを行うと、class属性でややこしい...) – lenz
@lenzこれは役に立ちます。 –