2011-12-20 12 views
3

私はnaive bayesクラシファイアアルゴリズムをapache mahoutで実行しています。アルゴリズムのインスタンスをトレーニングして実行する際に、グラムサイズを設定するオプションがあります。nagrams in apache mahout

nグラムサイズを1から2に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか?どのようにnグラムのサイズは結果に劇的な変化を起こすのですか?

答えて

6

1グラムは単語です。 2グラム(またはバイグラム)は単語のペアです。それは、 "合衆国"と "合衆国"、すなわち "米国"の存在に基づいて文書を分類するようなものです。バイグラムを使用すると、いくつかの領域とパフォーマンスに影響がありますが、おそらく1グラムより良い結果が得られます。

+0

ngramは精度に正比例し、スケーラビリティに反比例するのでしょうか? – Greenhorn

+0

いいえ、それはそれほど単純ではありません。正確さはあなたのコーパスに依存します。たとえば、バイグラムは、法的文書のような多くの重要なフレーズや固有名詞を持つ文書の分類に役立ちます。スケーラビリティは、あなたが個別に気にするnグラムの数を決めることができるので、別の質問です。 –

+0

。ありがとうSean! – Greenhorn

関連する問題