3
私はnaive bayesクラシファイアアルゴリズムをapache mahoutで実行しています。アルゴリズムのインスタンスをトレーニングして実行する際に、グラムサイズを設定するオプションがあります。nagrams in apache mahout
nグラムサイズを1から2に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか?どのようにnグラムのサイズは結果に劇的な変化を起こすのですか?
私はnaive bayesクラシファイアアルゴリズムをapache mahoutで実行しています。アルゴリズムのインスタンスをトレーニングして実行する際に、グラムサイズを設定するオプションがあります。nagrams in apache mahout
nグラムサイズを1から2に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか?どのようにnグラムのサイズは結果に劇的な変化を起こすのですか?
1グラムは単語です。 2グラム(またはバイグラム)は単語のペアです。それは、 "合衆国"と "合衆国"、すなわち "米国"の存在に基づいて文書を分類するようなものです。バイグラムを使用すると、いくつかの領域とパフォーマンスに影響がありますが、おそらく1グラムより良い結果が得られます。
ngramは精度に正比例し、スケーラビリティに反比例するのでしょうか? – Greenhorn
いいえ、それはそれほど単純ではありません。正確さはあなたのコーパスに依存します。たとえば、バイグラムは、法的文書のような多くの重要なフレーズや固有名詞を持つ文書の分類に役立ちます。スケーラビリティは、あなたが個別に気にするnグラムの数を決めることができるので、別の質問です。 –
。ありがとうSean! – Greenhorn