nagrams in apache mahout

私はnaive bayesクラシファイアアルゴリズムをapache mahoutで実行しています。アルゴリズムのインスタンスをトレーニングして実行する際に、グラムサイズを設定するオプションがあります。nagrams in apache mahout

nグラムサイズを1から2に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか？どのようにnグラムのサイズは結果に劇的な変化を起こすのですか？

2011-12-20 Greenhorn

1グラムは単語です。 2グラム（またはバイグラム）は単語のペアです。それは、 "合衆国"と "合衆国"、すなわち "米国"の存在に基づいて文書を分類するようなものです。バイグラムを使用すると、いくつかの領域とパフォーマンスに影響がありますが、おそらく1グラムより良い結果が得られます。

2011-12-20 12:16:13

ngramは精度に正比例し、スケーラビリティに反比例するのでしょうか？ – Greenhorn

いいえ、それはそれほど単純ではありません。正確さはあなたのコーパスに依存します。たとえば、バイグラムは、法的文書のような多くの重要なフレーズや固有名詞を持つ文書の分類に役立ちます。スケーラビリティは、あなたが個別に気にするnグラムの数を決めることができるので、別の質問です。 –

。ありがとうSean！ – Greenhorn

答えて