2017-03-15 7 views
0

NLPの最大可能性を理解しようとしています。 (9ページ)NLPでの最尤の理解

http://www.phontron.com/slides/nlp-programming-en-01-unigramlm.pdfと私はマニングとSchützeにより、統計的言語処理の基礎で同じ式を見た:私はこのpresntationを見ていました。

は今、私はそれがこの程度であるMLEを理解する方法:

私は実験の結果を知っているが、私は基本的な分布を知っているが、私は、単一のイベントの確率を知りません。 MLEは、私の観測から得られる可能性が最も高い確率の値を見つけることによって、確率(またはより一般的には未知のパラメータ)を見つけるのに役立ちます。

MLEでは、単一イベントの確率がxの場合、あるイベントを観測する可能性が最も高いことを示しています。

これが真実なら、なぜそのスライドに微積分が見えないのですか?なぜこのケースのMLEは単純な分数で計算されますか?これはMLEと何が関係しているのか分かりません。

私はMLEが最大化問題であると考えました...?

+0

この質問は、おそらく交差検証されている必要があります。場合によっては、MLEは観測のいくつかの分数として表すことができます。あなたはそれを証明するために微積分を使うことができます。 –

+0

数時間NLPを忘れてしまった。 MLEが行うことと、他のパラメータ推定手法と比較して、どこに位置するのかをより深く把握してみてください。これを見てください:https://engineering.purdue.edu/kak/Tutorials/Trinity.pdf – user3639557

答えて

0

MLEは実際に最大化の問題です。スライドでは、計算をスキップして、MLEの結果を示しただけです。あなたは完全な導出を見たい場合は、例えば、ここで3ページで見ることができ http://statweb.stanford.edu/~susan/courses/s200/lectures/lect11.pdf

このリンクは、多項分布のパラメータの最尤推定量を見つける方法を説明し、計算の同じタイプもresulsにつながりますあなたはスライドで見た。 (これはケースの総数のように)リンクでn

はあなたのスライドからc(w1,…,wi−1)に相当し、これはあなたがしたい具体的な事例の総数であるとして、リンク内x_iは(あなたのスライドからc(w1,…,wi)に対応しますカウント、すべてのケースの中で)。

関連する問題