2017-03-28 14 views
0

トピックモデリング用のGensimのHDPモデル(gensim.models.hdpmodel.HdpModel)には、max_chunksという引数を取るコンストラクタがあります。Gensim HDPトピックモデル:コーパスの複数のパスを訓練する方法?

ドキュメントでは、max_chunksはモデルが通過するチャンクの数であり、それが提供されたコーパスのチャンクの数より大きい場合、トレーニングはコーパスを包むことになります。

私はINFOログによって尤度関数が減少していることが警告されていたため、コーパスに複数のパスが必要な場合があります。

LDAモデルは、passes引数を使用して、コーパスで複数の反復を訓練する機能を提供します。 HDPのmax_chunksがLDAのpassesにどのようにマップされているのかわかりません。

たとえば、私のコーパスには1000000のドキュメントがあるとします。どのようなmax_chunks正確に訓練するためには、私のコーパス上で3通る必要があります。

提案がありますか?多くの多くのありがとう

答えて

0

chunksize,passesupdate_everyオプションはちょっと混乱する可能性があります。あなたはドキュメントの数を0とchunksizeセットにupdate_everyセットでbatch-LDAを行っている場合は何を手伝ってくれたことは、このlink、具体的にセクションChunksize, Passes, and Update_every

は3からpassesセットであなたは以上3つのパスを取得する必要があり、あなたのケースではそうでした完全なコーパス。

の場合、update_everyが1に設定されている場合は、さらにchunksizeを使用して、1パスあたりのミニバッチのサイズを制御できます。

関連する問題