2011-07-07 13 views
2

私は単純な(愚かかもしれない)質問があります。私は2つの文書でKullback-Leiblerの相違を計算したいと思います。それは各文書の確率分布を必要とする。確率分布を計算する

私はどのように各文書の確率を計算するのか分かりません。素人の例を使って簡単に答えていただければ幸いです。

1 - cross validated answers are good 
2 - simply validated answers are nice 

私たちはこれらの文書のための確率を計算するにはどうすればよい

(文書の文言はあなたの例を与えるためにちょうどBLAのBLAです):

は二つの文書に従うのは、我々が持っているとしましょうか?

は、我々は1つのより多くのドキュメントを追加しましょう:

3 - simply cross is not good answer 

我々は別の文書を追加した場合、それがどのように確率分布に影響を与えるのでしょうか?

おかげ

+0

これは宿題ですか? – emaillenin

+0

ではありません。さらに、私はソースコードを要求しなかった;)。私は簡単な素人の例を求めた。宿題の場合は私の教授です。lol – user751637

+1

Kullback-Leibler発散は対称ではありません。 KL(D1、D2)!= KL(D2、D1)である可能性があります。さらに、一方の文書に他の文書に存在しない単語が含まれていると、無限の発散値を得ることができます(KL発散を測定する方向によって異なります)。 2つのドキュメントの類似性の類似性を情報理論に基づいた尺度で計算したい場合は、Jennsen-Shannon divergence(http://en.wikipedia.org/wiki/Jensen-Shannon_divergence)を参照してください。 KL発散、対称性および有限性に基づく。 –

答えて

1

その文書が新しく追加された対応するために変更する予定です文書コレクション、お使いのディストリビューション内の単語や用語の分布とまったく同じでない限り、あなたは、文書のコレクションに文書を追加する場合言葉。疑問が生じる:「それは本当にあなたが第3の文書でしたいことですか?

Kullback-Leibler divergenceは、2つのディストリビューションの相違の尺度です。あなたは2つのディストリビューションとは何ですか?

文書内で特定の単語がランダムに選択される確率が分布である場合、確率値を持つスペースは文書を構成する単語の集合です。あなたの最初の2つのドキュメント(これはあなたのコレクション全体であると仮定します)では、7つの用語のワードスペースを構築できます。単語の袋であるように文書からランダムに選択された単語の確率:

  doc 1  doc 2   doc 3 (lem) 
answers  0.2  0.2    0.0  0.2 
are   0.2  0.2    0.0  0.2 
cross  0.2  0.0    .33  0.2 
good   0.2  0.0    .33  0.2 
nice   0.0  0.2    0.0  0.0 
simply  0.0  0.2    .33  0.2 
validated 0.2  0.2    0.0  0.0 

は[これは、ドキュメントの長さで割った用語頻度として計算されます。新しい文書には、文書1と文書2の単語と同じではない単語形式があることに注意してください。(lem)列は、同じ用語に対して対をなすか、またはlemmatizedした場合(回答/回答)]

シナリオに3番目の文書を導入すると、Kullback-Liebler Divergenceで行うことのある典型的な活動は、新しい文書または文書の集合を既知の文書または文書の集合と比較することです。

Kullback-Lieblerダイバージェンスを計算するD(P||Q)は、代入分布Qを使用して真の分布Pがどの程度うまく捕捉されたかを示す値を生成します。したがって、Q1は、ドキュメント1の単語の分布になる可能性があり、Q2は、ドキュメント2の単語の分布になる可能性があります。Pという新しいドキュメント(doc3)の単語の分布であるKLの相違を計算すると、新しい文書は文書1からのものであり、文書2からのそれの発散の程度です。この情報を使用して、新しい文書があなたの知っている文書/コレクションとどれほど似ているかを言うことができます。

+0

あなたの詳細/明確な答えのためにAtreysをありがとうございました。私はここで質問があります:TFと確率の違いは何ですか?それはいつも私を混乱させる。文書の確率分布を計算するのに簡単なTFを使用できますか?確率分布のために文書を正規化するいくつかの方法があると聞きましたが、それが何であるか考えていますか(正規化)? – user751637

+0

用語頻度は、文書内の用語の頻度です。用語「犬」が文書内で3回現れる場合、用語の頻度は3です。文書に8000語が含まれる場合、文書から無作為に選択される確率は3/8000です。 IRの場合、より有用な計算は、文書周波数に対するターム周波数であるTF-IDFである。 「犬」という言葉がコーパスに8回しか現れない場合、TF-IDFは3/8になるでしょう - もし100を超える文書があれば、おそらく非常に重要です。私が示した確率分布は、あなたが単語を選択していたならば、文書の中のランダムな索引語に行き、それを見ることによって、文書から選択されています... – Atreys

+0

... TFを文書の長さで割ることは、私がやったことです。それは確率ベクトルで使われる正規化です:ベクトルをコンポーネントの合計で割って、すべてが1になるようにします。情報検索に関する本がない場合は、[Information Retrievalの紹介](http:// nlp .stanford.edu/IR-book/information-retrieval-book.html)は、フィールドへのイントロへの容易なアクセスとして非常にアクセスしやすくなりました。 – Atreys

関連する問題