lda

    0

    1答えて

    私のLDAモデルを計算してトピックを検索しましたが、コーパス上の各トピックの重み/割合を計算する方法を探しています。私が手しかし from itertools import chain print(type(doc_set)) print(len(doc_set)) for top in ldamodel.print_topics(): print(top) print #

    0

    1答えて

    公式の説明では、LDAのトピック間に自然順序はありません。 show_topics()メソッドについては、num_topicsを返した場合< = self.num_topicsのすべてのトピックのサブセットは任意であり、2回のLDAトレーニングの実行の間に変更される可能性があります。 しかし、私はコーパスの上位10のトピックを頻繁に見つける傾向があります。これを達成する他の方法はありますか? 多く

    3

    1答えて

    私はそれを見つけることができないかもしれないし、おそらく私の統計やその用語に関する知識はここの問題ですが、私はLDA lib from PyPIの下のページにあるグラフに似た何かを達成したいと思いますし、ラインの一貫性/ 。 Gensim LDAでこれを達成するにはどうすればよいですか?

    0

    1答えて

    を持っていない私は、私は非常に簡単なテストコード(次の2行) import lda print lda.datasets.load_reuters() を持っているが、私は入れません(PIPを使用)LDAのplibrary がインストールされていますエラー AttributeError: 'module' object has no attribute 'datasets' 実際、私はldaの下で

    0

    1答えて

    私が知る限り、Python/RでLDAモデリングのトピック数を修正する必要があります。しかし、結果は次のように表示されます。topic=10文書、9つのトピックはすべて「健康」に関するものであり、この文書のトピック数は実際には2です。各トピックのキーワードを調べずに、どのように見分けることができ、本当に別個のトピックを手動で数えることができますか? P.S.私はグーグルでグーグルで、テーマ別に語彙

    3

    2答えて

    私はこの(ID、周波数B C D E)のようなデータフレームを有する ID A B C D E 1 5 3 2 1 0 2 3 2 2 1 0 3 4 2 1 1 1 私はこのようなテストベースのドキュメント(単一の列内の単語としてIDとその周波数ABCDE)にこのデータフレームに変換します。次に、LDAアルゴリズムを使用して、各IDのホットトピックを特定することができます。 ID

    0

    1答えて

    私はこのようなデータセットを持っています。このデータセットには、約1000人の乗客IDと、日曜日から土曜日までの時間1と時間12の間の移動頻度が含まれています。 BIクラスタリングを使用してこのデータセットをクラスタリングするのは可能でしょうか?それを行う方法。 ID T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 Day 1005 0 5 15 1 0 1 20

    0

    1答えて

    Spark MLlibを使用してLDAを実装しようとしています。 しかし、私は入力形式を理解するのが難しいです。 hereが説明したように、私はこれの出力形式を理解し、私は http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda を追っ 1 2 6 0 2 3 1 1 0 0

    0

    1答えて

    私は危機の期間を特定するためにニューススニペットを分析しようとしています。 これを行うには、私はすでに過去7年間にニュース記事をダウンロードし、利用可能にしています。 今、このデータセットにLDA(Latent Dirichlet Allocation)モデルを適用して、経済危機の兆候を示す国を特定します。私はヨルダンバーバーのブログ記事(https://rstudio-pubs-static.s

    0

    1答えて

    私はデータベースとは別のドキュメントを取っていますが、LDA(gensim)で調べると、これらのドキュメントにはどのような潜在的なトピックがありますか。これはかなりうまくいく。私がしたいのは、最も可能性の高いトピックが何であるかをすべての文書のデータベースに保存することです。そして、私はそれに最適な解決策が何であるか分かりません。たとえば、最初に、text_columnと一緒にデータベースからすべ