2016-12-15 6 views
3

トピックのモデリングを実行する前にストップワードを削除しようとしています。私はいくつかの否定言葉(not、not、never、noneなど)が通常はストップワードとみなされることに気づいた。たとえば、NLTK、spacy、sklearnには、ストップワードリストに「not」が含まれています。しかし、以下のこれらの文から「not」を削除すると、有意義な意味が失われ、トピックモデリングやセンチメント分析では正確ではありません。NLP - なぜ "not"がストップワードですか?

1). StackOverflow is helpful  => StackOverflow helpful 
2). StackOverflow is not helpful => StackOverflow helpful 

これらの否定語は通常、ストップワードとみなされる理由を説明してください。

+1

この質問は、それがプログラミングする方法ではなく、ソフトウェアの背後にある理論について、より専門的なサイトでより良い回答を得るように感じています。たぶんhttp://datascience.stackexchange.com/? – IMSoP

+4

別のスタックエクスチェンジに手動で移行されているので、この質問を閉じることにしました:http://datascience.stackexchange.com/questions/15765/nlp-why-is-not-a-stop-word – IMSoP

+0

はい私自身の質問に答え、それを解決しようとしました。しかし、私は明日まですることができません –

答えて

関連する問題