2012-02-23 30 views
0

私は、次の確率見つけたい:機械学習 - 分類アルゴリズム

P(y=1/n=k; thetha) 

読むよう:

確率を、予測がthetha

によってパラメータの言葉= kのクラス1与えられた番号であり、

従来の分類には条件付き確率がありません(右)

P(y = 1; thetha) 

どうすれば解決できますか?

EDIT:たとえば

、私は電子メールの添付ファイルの数に基づいてスパムであるかどうかを予測したいと言うことができます。 y=1は迷惑メール、y=0は迷惑メールであるとします。

ので、

P(y = 1/num_attachements=0; some attributes) 
and so on!! 

は、それがどんな意味を作っていますか?

+0

非常に不明瞭な質問です。このタスクのアプリケーションは何ですか、どのような影響が単語「k」の番号を作り、他のパラメータは「theta」なのかを指定します。また、「伝統的分類」のようなものはありません。おそらく、他の確率論の方法と簡単に組み合わせることができる確率論(Naive Bayesなど)に基づく分類子に興味があります。 – ffriend

+0

@ffriend:編集を見てくださいありがとうございました。それでもまだ不明であることをお知らせします – Fraz

答えて

1

通常、あなたの確率はしかし

P(y = 1 | all attributes) 

と同じであるので、添付ファイルのいくつかの特別な治療を持っている場合、添付ファイルの数は、ちょうど別の属性である(たとえば、他の属性が数値であり、添付ファイルがブール値である)あなたそれらを別々に計算してからのように組み合わせることができます。

P(C|A, B) = P(C|A) * P(C|B)/P(C) 

どこCイベントy = 1A用スタンド - 添付ファイルおよびその他の属性についてB

いくつかのNave Bayes分類子については、this paperを参照してください。

+1

あなたの公式は私には意味がありません。あなたは 'P(y = 1 | A、B)= 1/Z * P(y = 1、A、B)= 1/Z * P(y = 1)* P(A、B | y = 1) '、ここで' Z = P(A、B) 'となります。そして、ナイーブベイズモデルは、「A」と「B」は「y = 1」を知っていると独立していると仮定する。したがって、P(y = 1 | A、B)= 1/Z * P(y = 1)* P(A | y = 1)* P(B | y = 1) 'となります。 – Edouard

+1

@Edouard:実際にあなたは正しい - 私は、P(y = 1)がP(y = 0)(つまりすべてのクラスの確率が等しい)というこの仮定のために、標準化したが不合理であった。私はこの仮定を考慮に入れて答えを更新し、別々に計算される場合には 'P(C | A)'と 'P(C | B)'の確率を使います。あなたの最後の公式は等価であり、同じことを計算する別の方法です - 私はあなたの中で 'P(A | C)'と 'P(B | C)'の両方にBayesルールを適用して公式を得ることができます。 – ffriend

1

Naive Baisean分類器を使用してください。自分自身を非常に素早くコーディングしたり、nltkライブラリを使用/見たりすることができます。