このタイプのベイジアンモデルの仕組みを理解するには、David Bleiの2003年のLDA論文(google scholar「Latent Dirichlet Allocation」とその上部に表示されます)をお勧めします。彼らは "後者"( "ベストフィットソリューション"と呼ぶことができます)を推定するために(Gibbsサンプリングとは対照的に)変分推論を使用しましたが、生成モデルを使用する背後にある原理については十分に説明されています。
簡単に言えば、ベイジアントピックモデルは次のように動作します。データは、いくつかの「生成モデル」によって作成されたものと見なされます。このモデルは、データを生成するための確率論的プロセスを記述し、いくつかの不特定の潜在変数を有する。トピックモデルでは、これらの変数が検索しようとしている「トピック」です。その考えは、手元のデータが与えられている「トピック」の可能性が最も高い値を見つけることです。
ベイジアン推論では、潜在変数のこれらの最も可能性の高い値は、「事後」として知られています。厳密に言えば、事後確率は実際に潜在変数の可能な値に対する確率分布ですが、一般的なアプローチは「最大事後確率」またはMAP推定と呼ばれる最も可能性の高い値の集合を使用することです。
トピックモデルでは、実際のMAP値の見積もりが得られます。潜在値の多く、特にゼロに近いものは、本質的にノイズであり、(ゼロに近いことを除いて)真剣に受け入れることはできません。それはより意味のある大きな値です。