を使用して、自然言語の文字列を食い止めるしようとしている:私はnltk.stem.snowball輸入SnowballStemmer</p> <p>から輸入していますし、次のように私は、文字列を持っているのpython-2.7
たtext_string = "こんにちはみんなあなたができる場合にはこのメッセージは、parseOutTextを使って正しく読んでください。 "
私はこのコードを実行しています: words =" ".join(text_string.splitの単語のためのstemmer.stem(word) "))
およびI g次のように、いくつか 'e'が欠落しています。それが何を引き起こしているのか理解できません。助言がありますか?おかげであなたはそれを正しく使用しているフィードバック
「やあeveryonあなたはこのmessagを読むことができるならば、あなたの適切な使用のparseouttextの嘆願は、プロジェクトの次の部分に進み、」
正しく使用しています。それは変な演技をしているステマーです。何が原因かは、訓練データが少なすぎるか、間違ったバランスであるか、あるいは単に間違った結論になっていることです。完璧を期待することはできませんが、一般的な言葉で起こると迷惑です。それは動詞のように、「すべて」から「あらゆるもの」にまたがっています。少なくともここでは、それが何をしているのかはっきりしています。しかし、 "-e"は英語の接尾辞ではありません... – alexis
ありがとうございます。私はそれが私の質問への答えだと思います。 – kevbuntu
それを少し拡大して答えました。注意してください、私は茎の内部の経験はありません。 – alexis