latent-semantic-analysis

    0

    1答えて

    tfとidfを計算する方法はさまざまです。 LSAモデルでgensimがどの式を使用しているかを知りたい。私はそのソースコードlsimodel.pyを調べていますが、おそらくメモリ最適化のためにドキュメント用語行列が作成されている場所はわかりません。 one LSA paperで 、Iドキュメントタームマトリックスの各セルは、その単語のエントロピーで除算し、その文書におけるその単語の対数周波数であ

    11

    1答えて

    私はthis LDA packageをRに使用しています。具体的には、supervised latent dirichlet allocation (slda)を実行しようとしています。リンクされたパッケージには、slda.em関数があります。しかし私が混乱させるのは、アルファ、イータ、分散のパラメータを求めていることです。私が理解する限り、私はこれらのパラメータがモデルでは未知であると考えました

    -2

    1答えて

    これらのリンクlink1とlink2のコードに基づいてプログラムを書くと、aの意味的類似性が自動的に計算されます。連続した文章とb。センテンスは、1つの介在フレーズ、ドキュメント全体(1000文)で区切ります。 提供されたコードはすでにトークン化されており、意味的類似性を見つけることができますが、テキスト全体(「a、b」)にわたる連続した「介入」文の意味の類似性を計算し私は何度も何度も同じことをし

    1

    2答えて

    質問:各トピックの単語の頻度をどのように計算してコード化できますか? 私の目標は、各トピックから「Word Cloud」を作成することです。 P.S.>私はワードクラウドに問題はありません。コードから 、 burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,