topic-modeling

    2

    1答えて

    私はLDA出力(lda.show_topics(num_topics = -1、num_words = 100 ...))のトピックを処理し、pyLDAvisグラフと何を比較する必要がありますが、トピック番号には異なる番号が付けられます。方法私はそれらを一致させることができますか?

    0

    1答えて

    私はSMSカテゴライザを作っています。このために、メッセージをさまざまなトピックに分類したいと思います。だから、私はそれにgensimを使用したい。 gensimを使用してトピックモデリングを開始するのに役立つチュートリアルのソースを誰にでも教えてもらえますか?

    1

    1答えて

    私はLDA(R)のトピック頻度を決定するさまざまな方法を試してきましたが、非常に便利なパッケージldatuningを見つけましたが、制御パラメータ、特にシードの値の例は実際には分かりません。ここで は、ウェブサイトからサンプルコードです: library("topicmodels") data("AssociatedPress", package="topicmodels") dtm <- A

    2

    1答えて

    私はRパッケージtopicmodelsを使ってLDAを実行しました。私は、私の理解では、トピックに対する単語のディリクレのパラメータであるデルタの値を取得しようとしています。しかし、私は値にアクセスすることができませんでした。 私は単にslot(LDA,"alpha")ある [email protected]@delta または slot([email protected],"delta")

    0

    1答えて

    MALLETは、トピックモデルのトレーニング中に--output-doc-topicsパラメータを使用して、各ドキュメントのトピック配布を含むタブ区切りファイルを生成します。 doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... ただし、このファイルは

    0

    1答えて

    テキストファイルからトピック分析を行う方法?私はこのコードを置くが、私は最後の行を実行すると、以下のエラーが表示されます。なぜこのエラーが発生していますか? !のall.equalで library(tm) treex <- treex <- readLines(file.choose()) CorpusObj<- VectorSource(treex) breeze <- LDA(Corp

    0

    1答えて

    Rのチャットデータに対してトピックモデリングを実行しようとしています 文書用語行列の作成プロセスまでは良いです。 dtm<- DocumentTermMatrix(corpus) dtm<-removeSparseTerms(dtm, sparse=0.995) library(topicmodels) rowTotals <- apply(dtm, 1, sum) dtm2 <- dtm

    0

    1答えて

    私は3.5をPythonのために使用されると、私はプロジェクトを作成し、私のプロジェクトでこれらのコードを追加gensimサンプルに基づいて: class MyCorpus(object): def __iter__(self): for line in open('files/2/mycorpus.txt'): # assume there's one doc

    0

    1答えて

    トピックモデリング用のGensimのHDPモデル(gensim.models.hdpmodel.HdpModel)には、max_chunksという引数を取るコンストラクタがあります。 ドキュメントでは、max_chunksはモデルが通過するチャンクの数であり、それが提供されたコーパスのチャンクの数より大きい場合、トレーニングはコーパスを包むことになります。 私はINFOログによって尤度関数が減少し

    1

    1答えて

    私はLDAモデルとドキュメントトピックの確率を持っています。 # build the model on the corpus ldam = LdaModel(corpus=corpus, num_topics=20, id2word=dictionary) # get the document-topic probabilities theta, _ = ldam.inference(cor