テキストをトピックに分類するテキスト分類子を構築しています。'modern' nltk wordsコーパスを見つけよう
私のプログラムの第1段階では、データのクリーニングの一環として、英語以外の単語をすべて削除します。このため私はnltk.corpus.words.words()コーパスを使用しています。このコーパスの問題は、FacebookやInstagramなどの「現代的な」英語の単語を削除することです。誰かが、私が現在のものと取り替えたり、組み合わすことができるもう一つの、より現代的なコーパスを知っていますか?
私はnltk corpusが好きですが、私は他の提案をしています。事前
おそらく、「重複」とマークされたものよりも関連性があります。https://stackoverflow.com/questions/3788870/how-to-check-if-a-word-is-an-english-word-with-python – alexis