2011-10-10 5 views
5

私は文書のコーパスを持っており、各文書をベクトルとして表現したいと考えています。基本的に、このベクトルは、文書の中に存在する単語と、他の単語(この特定の文書ではなく、コーパス内の他の文書に存在する)に対して1を持ちます。このベクトルはすべてどのように作成しますかWekaの文書?Wekaを使って単語の袋を作るには?

Wekaを使用してこれを行う簡単な方法はありますか?また、Wekaがストップワードを削除して、できるだけこのベクターを作成する前にいくつかの前処理をしたい。

おかげ アビシェークS

答えて

7

あなたはStringToWordVectorフィルタをしたいです。

ステミング、単語リストの切り捨て、まれな用語の破棄、大文字と小文字の区別など、バイナリの発生と停止のオプションがあります。

関連する問題