私は単語プロジェクトの袋に取り組んでいます。停止単語のNLTKリストから停止単語を削除したいと思います。現時点では、私はこれをやっている:NLTKストップワードを使用する正しい方法は何ですか?
words.difference_update(set(stopwords.words("english")))
(単語がコーパス内のすべての単語を含む集合である)
しかし、私はstopwords.words("english")
の内容を見ると、私は次のように言葉を参照してください。 "couldn"と "doesn"。私はこれらが "could not"や "does not"のような言葉のための単語接頭辞であると仮定し、そしておそらく他の言葉。
したがって、単語がストップワードリストに含まれているかどうかを確認する方法は、純粋な文字列の平等よりも洗練されていますが、わかりません。どんな助けもありがとうございます。
コーパス全体[ここ](https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip)をダウンロードして、余暇に読み書きすることもできます。この[質問](https://stackoverflow.com/questions/37701305/where-to-find-an-exhaustive-list-of-stop-words/37712453#37712453)では、NLTKリストの変更方法が説明されています。 – patrick