私はsklearn(Python)にさまざまな確率モデル(latent Dirichlet Allocation、Non-negative Matrix Factorizationなど)を適合させる最良の方法を見つけようとしています。scikit-learn - 私はTFまたはTF-IDFでモデルに合うべきですか?
sklearnのドキュメントの例を見ると、なぜLDAモデルがTFアレイに適合しているのか、NMFモデルはTF-IDFアレイに適合しているのだろうと思っていました。この選択の正確な理由はありますか?ここで
、私のモデルをフィッティングするための最良のパラメータ(反復回数、トピックの数を...)を見つける方法については任意のヒントはよく受け入れられています。
ありがとうございます。
パラメータ最適化のコメントです。メタ最適化手法についてのリソースを確認する必要があります(たとえば、遺伝的アルゴリズムやPSO - Particle Swarm Optimizationを使用するアルゴリズムでは、所定のセットアップで最適なパラメータ値が得られることが保証されています)。メタ最適化は、可能な各パラメータの組み合わせの検索スペースをすばやく効率的にトラバースする方法です。 – rpd
ありがとうございます@rpd! –