0

を学びます"と"ユーモア "を同時に表示します。テキスト分類器を使用している場合マシンはアイデアはとても与えられた映画は「行動かもしれない、「タグ」の映画であり、その説明に基づいて映画を分類だから私は(ちょうど楽しみのために)しようとしていたテキストは、Nクラスに1に属しているテキスト分類

は通常、何を得ることは与えられたテキストが属するところにクラスですが、私の場合は私が1 Nへのタグのテキストを割り当てます。

私がしたい場合は、現在の私のトレーニングセットは、例えばので、各タグは、単一のテキストに属しているかどうか私に教えて分類器を訓練することです、私は次のやっている何本

+--------------------------+---------+ 
|  TEXT    | TAG | 
+--------------------------+---------+ 
| Some text from a movie | action | 
+--------------------------+---------+ 
| Some text from a movie | humor | 
+--------------------------+---------+ 
| Another text here  | romance | 
+--------------------------+---------+ 
| Another text here  | cartoons| 
+--------------------------+---------+ 
| And some text more  | humor | 
+--------------------------+---------+ 

ようになります。テキストは、私は、次のトレーニングで終わるだろう「ユーモア」として分類されているかどうかを把握するには、その後、私はテキストはユーモアか(同じアプローチであるかどうかを学ぶでしょう分類器を訓練

+--------------------------+---------+ 
|  TEXT    | TAG | 
+--------------------------+---------+ 
| Some text from a movie | humor | 
+--------------------------+---------+ 
| Another text here  |not humor| 
+--------------------------+---------+ 
| And some text more  | humor | 
+--------------------------+---------+ 

を設定しましたタグの残りの部分で実行されます)。その後、私は

  • アクション/何のアクション
  • ユーモア/なしユーモア
  • ロマンス/ノーロマンス
  • 漫画/最後にノー漫画

ません4つの分類の合計で終わります私は新しいテキストを取得するときに、4つの分類器のそれぞれに、それが特定のしきい値(たとえば0.9)を超える場合、私に肯定的な分類を与える各分類器(すなわち、XがXではなくXを与える) )、それから私は新しいテキストはタグXに属しています。次に、それぞれの分類子で同じことを繰り返します。

特に私は、アルゴリズムとしてナイーブベイズを使用していますが、同じ確率を出力任意のアルゴリズムを適用することができます。

ここで質問は、このアプローチは正しいですか?ここでひどく間違ったことをしていますか?結果から私は物事を得るのは理にかなっているようですが、私は第二意見をしたいと思います。

答えて

0

はい、これは意味があります。これは、「1対すべて」(または「1対全対」)分類器として知られるマルチラベル/マルチクラス分類のための周知の基本技術である。これは非常に古くて広く使われています。一方で、あなたのクラス/タグ間の関係を考慮しないので、とても素朴です。あなたは、(そして通常は存在する)悪用される可能性のあるラベルスペース上にいくつかの構造があるトピックをカバーする構造学習について読むことに興味があるかもしれません。

+0

なぜこれに否定的なコメントがありますか?私はそれが非常に便利だと思う... upvoteを追加! –

+0

@元、私はあまりにもここでdownvoteを見て驚いたが、有権者が何を持っていたかを説明するコメントはない - 私はそれが非常に "事実上の"投票ではなかったと思います。 – lejlot

0

説明した問題は、文書集の基礎となる(潜在的な)トピックを見つけるための統計的なtopic modelメソッドLatent Dirichlet Allocationによって解決できます。このアプローチは、各文書がこれらのトピックの混合物であるモデルに基づいています。一般的に

、あなたが最初にトピックについて決定(あなたのケースでは、タグがトピックです)、その後、トレーナーを実行します。 LDAソフトウェアは、各文書のトピックに関する確率分布を出力します。 http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/

+0

ldaは潜在変数を見つけるための監督されていないテクニックであり、完全に監督されたmutliclass問題のOP問題とは関係ありません。 – lejlot

+0

@lejlot:OPの質問には一言も言及しません。彼はNaive Bayesを使用しようとしているが、監督下の学習を使用することは唯一のアプローチではないという。引用するには:「1からNタグにテキストを割り当てたい」彼はまた、例えば、テキストが「ユーモア」として分類されているかどうかを把握したいとしている。 LDAはこれらの問題を解決することができます。 – stackoverflowuser2010

+0

OPはトレーニングセットを作成し、マルチクラスの一般化されたNaive Bayesを使用します。それは非常にきれいに記述され、基本的な監視設定のアプローチです。教師なし学習のテクニックは、あなたのデータについて何かを見つけようとするときに効果的です。あなたのタスクが明確に指定されているとき、彼らの内部目的はあなたの問題を解決するものではなく、むしろ彼ら自身の解決策を見つける良いアプローチではありません。クラスタ化の場合と同様に、データクラスタリングは常にありますが、これはあなたのタスクに関係していると仮定すると単純に間違っています。 – lejlot

0

はい:ここ

は良い紹介です。あなたのアプローチは正しいですし、マルチクラス分類タスクを処理するためにバイナリ分類を行うように設計された分類子を有効にすることは、よく知られた戦略です。

Andrew Ng(Standford University)は、このアプローチをhereと説明しています。ロジスティック回帰について説明されていますが、言及したように、このアイデアは確率を出力するアルゴリズムに適用できます。

+0

はい、実際に私はコースを遂行しました。しかし、そのビデオでは、logistc回帰を使用して2つのクラス間ではなくN個のクラス間で分類できるように、アプローチが説明されています。私が得たいのは、N個のクラスを追加したいだけでなく、与えられたテキストに対してN個のクラスまでを割り当てたいという点を除いて同様です。それはあなたが正しいと言いました、そしてbtw、私の数字が同じように見えるようです:) –

+0

私はあなたが単純に(現在の数字を観察することによって)確率のしきい値を指定し、確率クラスに所属する映画の視聴率は閾値を超えています。私は学術論文を同じアプローチで見てきました。 – TrnKh

関連する問題