latent-semantic-analysis

0熱

1答えて

tfとidfを計算する方法はさまざまです。 LSAモデルでgensimがどの式を使用しているかを知りたい。私はそのソースコードlsimodel.pyを調べていますが、おそらくメモリ最適化のためにドキュメント用語行列が作成されている場所はわかりません。 one LSA paperで、Iドキュメントタームマトリックスの各セルは、その単語のエントロピーで除算し、その文書におけるその単語の対数周波数であ

11熱

1答えて

R監督付き潜在ディリクレ割り当てパッケージ

私はthis LDA packageをRに使用しています。具体的には、supervised latent dirichlet allocation (slda)を実行しようとしています。リンクされたパッケージには、slda.em関数があります。しかし私が混乱させるのは、アルファ、イータ、分散のパラメータを求めていることです。私が理解する限り、私はこれらのパラメータがモデルでは未知であると考えました

-2熱

1答えて

テキスト内の文章間の意味的な一貫性の発見

これらのリンクlink1とlink2のコードに基づいてプログラムを書くと、aの意味的類似性が自動的に計算されます。連続した文章とb。センテンスは、1つの介在フレーズ、ドキュメント全体（1000文）で区切ります。提供されたコードはすでにトークン化されており、意味的類似性を見つけることができますが、テキスト全体（「a、b」）にわたる連続した「介入」文の意味の類似性を計算し私は何度も何度も同じことをし

1熱

2答えて

トピックモデリング：LDA、各トピックの単語頻度とWordcloud

質問：各トピックの単語の頻度をどのように計算してコード化できますか？私の目標は、各トピックから「Word Cloud」を作成することです。 P.S.>私はワードクラウドに問題はありません。コードから、 burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,