2012-03-09 28 views
0

私はWekaライブラリでjavaでテキスト分類子を構築しています。wekaでのテキスト分類

最初にストップワードを削除してから、ステマーを使用しています(車を車に変換するなど)。 今は6つの定義済みカテゴリがあります。すべてのカテゴリについて、分類器を の5つの文書に練習します。文書の長さは似ています。

分類されるテキストが短い場合、結果は正常です。しかし、テキストの長さが よりも100ワードの方が、見知らぬ人と見知らぬ人になります。

私は次のように各カテゴリの確率を返します。 確率:

[0.0015560238056109177、0.02592、0.6657404531908249、0.004793498469427115、0.13253647895234325、0.014481613481534815]

かなり信頼性の分類です。

しかし、私は約100の単語よりも長いテキストを使用するときに私のような結果を得る:

確率:[1.2863123678314889E-5、4.3728547754744305E-5、0.9964710903856974、5.539960514402068E-5、0.002993481218084141、4.234371196414616E-4]を

これは良いことです。

今すぐImはNaive Bayes Multinomialを使用してドキュメントを分類します。私はそれについて を読んで、私は長いテキストに奇妙な行為をすることができたことが分かった。今は私の問題かもしれませんか?

これはなぜ起こっているのですか?

+1

トレーニング文書はどのくらいですか?それらがかなり短い場合、入力がより長いときに分類子のための十分な情報がないかもしれません。 – cgwyllie

+0

約200〜400語。しかし、私が言ったように、私はカテゴリーごとに5つの文書しか使用していません。私はより良い分類のためにもっと文書を使うべきだと思いますが、それは問題を解決するとは思えません(もちろん、分類はより正確ですが、エラーはまだそこにあります:/) – joxxe

+1

> 100語のテストケース分類された文書がP = 0.996のクラス3であることを示唆していないか?他の数字が非常に小さいという事実は、分類されている例が間違いなくそのカテゴリにないことを示唆しています。クラス3は正しいですか? – cgwyllie

答えて

1

この動作には複数の要因があります。トレーニングとテストのテキストが同じドメインでない場合、これが起こります。また、私はすべてのカテゴリのドキュメントを追加すると良い結果が得られるはずです。すべてのカテゴリで5つの文書が非常に少ないように見えます。より多くの訓練文書を持たない場合、または訓練文書をさらに作成することが難しい場合は、訓練セットに肯定および否定のインスタンスを総合的に追加できます(詳細はSMOTEアルゴリズムを参照)。私たちは更新を投稿してください。

関連する問題