トピックモデリング用のGensimのHDPモデル(gensim.models.hdpmodel.HdpModel)には、max_chunks
という引数を取るコンストラクタがあります。Gensim HDPトピックモデル:コーパスの複数のパスを訓練する方法?
ドキュメントでは、max_chunks
はモデルが通過するチャンクの数であり、それが提供されたコーパスのチャンクの数より大きい場合、トレーニングはコーパスを包むことになります。
私はINFOログによって尤度関数が減少していることが警告されていたため、コーパスに複数のパスが必要な場合があります。
LDAモデルは、passes
引数を使用して、コーパスで複数の反復を訓練する機能を提供します。 HDPのmax_chunks
がLDAのpasses
にどのようにマップされているのかわかりません。
たとえば、私のコーパスには1000000のドキュメントがあるとします。どのようなmax_chunks
正確に訓練するためには、私のコーパス上で3通る必要があります。
提案がありますか?多くの多くのありがとう