2017-06-14 7 views
0

テキストをトピックに分類するテキスト分類子を構築しています。'modern' nltk wordsコーパスを見つけよう

私のプログラムの第1段階では、データのクリーニングの一環として、英語以外の単語をすべて削除します。このため私はnltk.corpus.words.words()コーパスを使用しています。このコーパスの問題は、FacebookやInstagramなどの「現代的な」英語の単語を削除することです。誰かが、私が現在のものと取り替えたり、組み合わすことができるもう一つの、より現代的なコーパスを知っていますか?

私はnltk corpusが好きですが、私は他の提案をしています。事前

+0

おそらく、「重複」とマークされたものよりも関連性があります。https://stackoverflow.com/questions/3788870/how-to-check-if-a-word-is-an-english-word-with-python – alexis

答えて

0

おかげで私はウィキペディアを使用したいが、それはそれの全体をトークン化するためにかかるかなりの時間です。幸いにも、それはすでにあなたのために行われています。あなたは1000億ワードのウィキペディアに訓練されたWord2Vec modelを使用して、その単語がモデルに含まれているかどうかを確認することができます。

私はこのprojectも見つけました。ここでChrisは3百万語の語彙のテキストファイルを作成しました。

このプロジェクトの単語リストにはストップワードが含まれていないので、nltkとこのリストの和集合を見つけることをお勧めします。

1

アプローチを再考してください。英語のテキストのコレクションには、あなたが以前に見たことのない単語の「長い尾」があります。どんなに大きな辞書であっても、英語以外の単語は削除されます。そして、どのような目的に?あなたの分類を損なうことはありません。

英語以外のテキストを削除することを目標とする場合は、統計的アプローチ(例: ngramモデル。彼らはうまく動作し、最小限のリソースが必要です。

関連する問題