topic-modeling

2熱

1答えて

Gensim LDA出力とpyLDAvisグラフのトピックを一致させる方法はありますか？

私はLDA出力（lda.show_topics（num_topics = -1、num_words = 100 ...））のトピックを処理し、pyLDAvisグラフと何を比較する必要がありますが、トピック番号には異なる番号が付けられます。方法私はそれらを一致させることができますか？

0熱

1答えて

トピックのモデリングgensimを使用して

私はSMSカテゴライザを作っています。このために、メッセージをさまざまなトピックに分類したいと思います。だから、私はそれにgensimを使用したい。 gensimを使用してトピックモデリングを開始するのに役立つチュートリアルのソースを誰にでも教えてもらえますか？

1熱

1答えて

LDAのトピック頻度（R）を決定するために 'ldatuning'で 'seed'は何をしますか？

私はLDA（R）のトピック頻度を決定するさまざまな方法を試してきましたが、非常に便利なパッケージldatuningを見つけましたが、制御パラメータ、特にシードの値の例は実際には分かりません。ここでは、ウェブサイトからサンプルコードです： library("topicmodels") data("AssociatedPress", package="topicmodels") dtm <- A

2熱

1答えて

R LDAトピックモデルデルタの後ろを取得する方法

私はRパッケージtopicmodelsを使ってLDAを実行しました。私は、私の理解では、トピックに対する単語のディリクレのパラメータであるデルタの値を取得しようとしています。しかし、私は値にアクセスすることができませんでした。私は単にslot(LDA,"alpha")ある [email protected]@delta または slot([email protected],"delta")

0熱

1答えて

MALLETのトピック配布ファイルの列の順序を変更

MALLETは、トピックモデルのトレーニング中に--output-doc-topicsパラメータを使用して、各ドキュメントのトピック配布を含むタブ区切りファイルを生成します。 doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... ただし、このファイルは

0熱

1答えて

Rの潜在的なリリチッチの割り当て

テキストファイルからトピック分析を行う方法？私はこのコードを置くが、私は最後の行を実行すると、以下のエラーが表示されます。なぜこのエラーが発生していますか？！のall.equalで library(tm) treex <- treex <- readLines(file.choose()) CorpusObj<- VectorSource(treex) breeze <- LDA(Corp

0熱

1答えて

文書総数が0である文書用語行列の行を見つけるR

Rのチャットデータに対してトピックモデリングを実行しようとしています文書用語行列の作成プロセスまでは良いです。 dtm<- DocumentTermMatrix(corpus) dtm<-removeSparseTerms(dtm, sparse=0.995) library(topicmodels) rowTotals <- apply(dtm, 1, sum) dtm2 <- dtm

0熱

1答えて

gensimメモリーに優しいコーパスエラー

私は3.5をPythonのために使用されると、私はプロジェクトを作成し、私のプロジェクトでこれらのコードを追加gensimサンプルに基づいて： class MyCorpus(object): def __iter__(self): for line in open('files/2/mycorpus.txt'): # assume there's one doc

0熱

1答えて

Gensim HDPトピックモデル：コーパスの複数のパスを訓練する方法？

トピックモデリング用のGensimのHDPモデル（gensim.models.hdpmodel.HdpModel）には、max_chunksという引数を取るコンストラクタがあります。ドキュメントでは、max_chunksはモデルが通過するチャンクの数であり、それが提供されたコーパスのチャンクの数より大きい場合、トレーニングはコーパスを包むことになります。私はINFOログによって尤度関数が減少し

1熱

1答えて

gensim LdaModelでトピック単語確率行列を抽出します。

私はLDAモデルとドキュメントトピックの確率を持っています。 # build the model on the corpus ldam = LdaModel(corpus=corpus, num_topics=20, id2word=dictionary) # get the document-topic probabilities theta, _ = ldam.inference(cor