This questionには、組み込みの英語のストップワードにCountVectorizer
という単語を追加する方法が説明されています。私は、トークンとしての数字を取り除くという分類器への影響を見ることに興味があります。scickit-learnのCountVectorizerにstop_wordsを追加する
ENGLISH_STOP_WORDS
はフリーズセットとして保存されていますので、凍ったリストに任意の番号represnetationを追加することができますか?
あなたが渡さなければならないリストの良さは、それを排除するので、私の質問はそれが不可能だということです。
私はword.isdigit()
が、私はその後、ENGLISH_STOP_WORDS
(see previous answer)との連合が、私はむしろだろうことができますセット/リストに真であるテストコーパスとポップの言葉をループするだろうと同じことを達成する1つの方法を想定します怠惰で、より簡単なものをstop_words
パラメータに渡します。