私はPythonで作業しています、そして、私はいくつかの言葉の根を見つけることを望みます、それは主に国を参照しています。私が必要とするものを示すいくつかの例は以下の通りです:Pythonで国家のためのスマートなステミング/ lemmatizing
- スペインは私にスペインを与えるべきです。
- 英語は私にイギリスを与えるべきです。
- アメリカ人は私にアメリカを渡すべきです。
- ナイジェリアはナイジェリアを私に渡すべきです。
- ギリシャ語(複数形)はギリシャ語を教えてください。
- プエルトリコ(複数形)は私にプエルトリコを与えるべきです。
- ポルトガル語はポルトガル語です。
私は、NLTKモジュールのPorter、Lancaster、Snowballのステムマーを少し試しました。しかしポーターとスノーボールはトークンを一切変更しないが、ランカスターはあまりにも積極的だ。たとえば、アメリカ人のランカスター幹は「Am」です。これはかなりひどく虐殺されています。私はWordNetのリムタイターでも演奏しましたが、成功しませんでした。
上記の結果を得る方法は、それが国でのみ機能する場合でもありますか?
Wikipediaの[この総合リスト](https://en.wikipedia.org/wiki/Demonym)をご覧ください。 – lenz