2016-04-25 10 views
0

Naive Bayes分類法(Multinomial NB)については、Michael Sipserの著書「The Theory of Computation」の記述方法を参照して説明しました。アルゴリズムの理解 - 多項式Naive Bayes

私はトレーニングと、次のように提示多項NBを、適用の両方に記載されたアルゴリズムで探しています:

enter image description here

アルゴリズムの特定の側面を解釈するときしかし、私はロスに来ています。例えば、6行目のTRAINMULTINOMIALNB(C、D)に:

  • CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS(D、C)は正確には何を行いますか?

これまでのところ、次のように理解しています。 3 - - 私たちは3持っていると仮定し、クラス内のドキュメント "映画" と "歌":CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS(D、C)を適用した後

MOVIES 
    DOC1 = "big fish" 
    DOC2 = "big lebowski" 
    DOC3 = "mystic river" 

SONGS 
    DOC1 = "purple rain" 
    DOC2 = "crying in the rain" 
    DOC3 = "anaconda"  

を、あなたは、その後に残されることになる、文字列が言う:

String concatenatedMovies = "big fish big lebowski mystic river" 
String concatenatedSongs = "purple rain crying in the rain anaconda" 

これは正しいですか? これを理解する助けとなることは大変ありがたいです。

答えて

1

最後に、コンテンツに基づいてテキストを再分類できるようにしたいと考えています。だから、その曲や映画などを言うことができるようにしたい場合
ベイズ(または他の方法)でそれを行うには、まず列車データを使用してモデルを作成します。

最初に、行5にを作成する(conditional probabilities)(ムービーのクラスを与えられた単語魚の確率、クラスSONGSを与えられた単語の雨の確率)、7-10行を計算します。あなたは、単に用語の出現数をクラス内の用語の総数(いくつかの平滑化 - > +1)で除算するだけです。そのため、あなたは、クラス内の用語のすべての出現回数を数えることができるように、コンカテネーションを行います。
最後に、これらの値をBayes式に接続し、未定義のドキュメントをムービー、ソング、などと分類できます。 wiki

関連する問題