2016-07-22 4 views

答えて

1

直観的には、世界中のすべてのテキストのすべてのnグラムを計算して、確率を計算する必要があります。これは非常に非現実的なので、MLEは、これらのnグラム確率を、与えられたコーパスで数えて推定する方法を提供します。例えば

あなたは単語のx次の単語Yのバイグラム確率が必要な場合、あなたはC(xy)、ペアとしてそれらの発生の数をカウントします。次に、xで始まるすべてのバイグラムの合計で除算することで正規化する必要があります(xの後にすべての可能な単語が続く)sum of C(xz) over all z、最終的にMLEの見積もりは0と1の間になります。

すべてのバイグラムの合計がX で始まるカウントされるため、この式はさらに簡略化できることに注意してくださいがアップ追加する必要があります

P(y|x) = C(xy)/sum of C(xz) over all z

:したがって、このバイグラム確率は次式で推定することができ

P(y|x) = C(xy)/(x)

X自体のユニグラムカウントに
関連する問題