私はNaive Bayesを使ってテキストの文書ベースを分類しようとしています。各ドキュメントは、1〜n個のカテゴリに属することがあります(ブログ記事のタグと考える)。Naive BayesとRを使ったマルチクラス分類
私の現在のアプローチは、目的の動作が
Some new text to classify
そして
のような出力のように見えるの入力を持つことである。もちろん、この+-------------------------+---------+-------+-------+
| TEXT TO CLASSIFY | Tag 1 | Tag 2 | Tag 3 |
+-------------------------+---------+-------+-------+
| Some text goes here | Yes | No | No |
+-------------------------+---------+-------+-------+
| Some other text here | No | Yes | Yes |
+-------------------------+---------+-------+-------+
| More text goes here | Yes | No | Yes |
+-------------------------+---------+-------+-------+
のように見えるCSVでRを提供することです
+------+------+-------+
| Tag 1| Tag 2| Tag 3 |
+------+------+-------+
| 0.12 | 0.75 | 0.65 |
+------+------+-------+
次に、特定のしきい値に基づいて、指定されたテキストが属するかどうかを判断します入力された以上のような
+--------------------------+---------+
| TEXT TO CLASSIFY | Class |
+--------------------------+---------+
| Some other text here | No |
+--------------------------+---------+
| Some other text here | Yes |
+--------------------------+---------+
| Some other text here | Yes |
+--------------------------+---------+
、クラスごとのテキストあたりROWする必要がありますように、タグ1、2、に
3.ここでの質問は、私が発見したチュートリアルでは、それが見えています。 ..それを使用して、私は素朴なベイを練習し、どのテキストがどのタグに属するのかを判断するために1対すべてを使用することができます。質問は、よりエレガントな方法でこれを行うことができます(つまり、私が言及した最初の例のような訓練データを持っています)?私が見つけた例の
一つは、二つのアプローチが概念的にありますhttp://blog.thedigitalgroup.com/rajendras/2015/05/28/supervised-learning-for-text-classification/