2016-03-31 19 views
1

私はNaive Bayesを使ってテキストの文書ベースを分類しようとしています。各ドキュメントは、1〜n個のカテゴリに属する​​ことがあります(ブログ記事のタグと考える)。Naive BayesとRを使ったマルチクラス分類

私の現在のアプローチは、目的の動作が

Some new text to classify 

そして

のような出力のように見えるの入力を持つことである。もちろん、この

+-------------------------+---------+-------+-------+ 
| TEXT TO CLASSIFY  | Tag 1 | Tag 2 | Tag 3 | 
+-------------------------+---------+-------+-------+ 
| Some text goes here  | Yes  | No | No | 
+-------------------------+---------+-------+-------+ 
| Some other text here | No  | Yes | Yes | 
+-------------------------+---------+-------+-------+ 
| More text goes here  | Yes  | No | Yes | 
+-------------------------+---------+-------+-------+ 

のように見えるCSVでRを提供することです

+------+------+-------+ 
| Tag 1| Tag 2| Tag 3 | 
+------+------+-------+ 
| 0.12 | 0.75 | 0.65 | 
+------+------+-------+ 

次に、特定のしきい値に基づいて、指定されたテキストが属するかどうかを判断します入力された以上のような

+--------------------------+---------+ 
| TEXT TO CLASSIFY  | Class | 
+--------------------------+---------+ 
| Some other text here  | No  | 
+--------------------------+---------+ 
| Some other text here  | Yes  | 
+--------------------------+---------+ 
| Some other text here  | Yes  | 
+--------------------------+---------+ 

、クラスごとのテキストあたりROWする必要がありますように、タグ1、2、に

3.ここでの質問は、私が発見したチュートリアルでは、それが見えています。 ..それを使用して、私は素朴なベイを練習し、どのテキストがどのタグに属するのかを判断するために1対すべてを使用することができます。質問は、よりエレガントな方法でこれを行うことができます(つまり、私が言及した最初の例のような訓練データを持っています)?私が見つけた例の

一つは、二つのアプローチが概念的にありますhttp://blog.thedigitalgroup.com/rajendras/2015/05/28/supervised-learning-for-text-classification/

答えて

1

です。

  1. タグを結合タグに結合します。次に、あなたは共同確率を得るでしょう。主な欠点はコンビナトリアル爆発であり、さらに多くのトレーニングデータが必要であることを意味します。
  2. 各タグに個別のNBモデル​​を作成します。

常に確率モデルでは、タグが独立していると仮定しているかどうかという疑問があります。ナイーブベイズの精神において、独立の仮定は非常に自然なものになるでしょう。その場合、2.行く道があります。独立仮定が正当化されておらず、あなたがコンビナトリアル爆発を恐れている場合は、標準的なベイジアンネットワークを使用することができます。一定の前提を維持すれば、業績に影響はありません。

ただし、複数のアプローチを混在させることもできます。

  1. 階層型ナイーブベイズモデルを使用できます。タグに論理構造がある場合は、クラスの親変数を導入することができます。両方のタグが一緒に出現した場合、Basciallyに値tag1/tag2があります。
  2. 基本的な考え方は、あなたが見ていない潜在変数に向かって拡張することができます。これは、EMスキームを使用して訓練することができます。これはトレーニングのパフォーマンスにわずかに影響しますが、トレーニングを実行する必要があるため、複数の反復が必要ですが、おそらく最良の結果が得られます。

http://link.springer.com/article/10.1007%2Fs10994-006-6136-2#/page-1

関連する問題