私はWekaライブラリでjavaでテキスト分類子を構築しています。wekaでのテキスト分類
最初にストップワードを削除してから、ステマーを使用しています(車を車に変換するなど)。 今は6つの定義済みカテゴリがあります。すべてのカテゴリについて、分類器を の5つの文書に練習します。文書の長さは似ています。
分類されるテキストが短い場合、結果は正常です。しかし、テキストの長さが よりも100ワードの方が、見知らぬ人と見知らぬ人になります。
私は次のように各カテゴリの確率を返します。 確率:
[0.0015560238056109177、0.02592、0.6657404531908249、0.004793498469427115、0.13253647895234325、0.014481613481534815]
かなり信頼性の分類です。
しかし、私は約100の単語よりも長いテキストを使用するときに私のような結果を得る:
確率:[1.2863123678314889E-5、4.3728547754744305E-5、0.9964710903856974、5.539960514402068E-5、0.002993481218084141、4.234371196414616E-4]を
これは良いことです。
今すぐImはNaive Bayes Multinomialを使用してドキュメントを分類します。私はそれについて を読んで、私は長いテキストに奇妙な行為をすることができたことが分かった。今は私の問題かもしれませんか?
これはなぜ起こっているのですか?
トレーニング文書はどのくらいですか?それらがかなり短い場合、入力がより長いときに分類子のための十分な情報がないかもしれません。 – cgwyllie
約200〜400語。しかし、私が言ったように、私はカテゴリーごとに5つの文書しか使用していません。私はより良い分類のためにもっと文書を使うべきだと思いますが、それは問題を解決するとは思えません(もちろん、分類はより正確ですが、エラーはまだそこにあります:/) – joxxe
> 100語のテストケース分類された文書がP = 0.996のクラス3であることを示唆していないか?他の数字が非常に小さいという事実は、分類されている例が間違いなくそのカテゴリにないことを示唆しています。クラス3は正しいですか? – cgwyllie