lda

0熱

1答えて

私のLDAモデルを計算してトピックを検索しましたが、コーパス上の各トピックの重み/割合を計算する方法を探しています。私が手しかし from itertools import chain print(type(doc_set)) print(len(doc_set)) for top in ldamodel.print_topics(): print(top) print #

0熱

1答えて

Gensimを使用してトップ10のトピックを印刷するには？

公式の説明では、LDAのトピック間に自然順序はありません。 show_topics（）メソッドについては、num_topicsを返した場合< = self.num_topicsのすべてのトピックのサブセットは任意であり、2回のLDAトレーニングの実行の間に変更される可能性があります。しかし、私はコーパスの上位10のトピックを頻繁に見つける傾向があります。これを達成する他の方法はありますか？多く

3熱

1答えて

Gensim LDAモデルの収束を監視する方法は？

私はそれを見つけることができないかもしれないし、おそらく私の統計やその用語に関する知識はここの問題ですが、私はLDA lib from PyPIの下のページにあるグラフに似た何かを達成したいと思いますし、ラインの一貫性/ 。 Gensim LDAでこれを達成するにはどうすればよいですか？

0熱

1答えて

はAttributeError：「モジュール」オブジェクトが属性「__version__」

を持っていない私は、私は非常に簡単なテストコード（次の2行） import lda print lda.datasets.load_reuters() を持っているが、私は入れません（PIPを使用）LDAのplibrary がインストールされていますエラー AttributeError: 'module' object has no attribute 'datasets' 実際、私はldaの下で

0熱

1答えて

Python/RでLDAの後に明確なトピックの数を見つける

私が知る限り、Python/RでLDAモデリングのトピック数を修正する必要があります。しかし、結果は次のように表示されます。topic=10文書、9つのトピックはすべて「健康」に関するものであり、この文書のトピック数は実際には2です。各トピックのキーワードを調べずに、どのように見分けることができ、本当に別個のトピックを手動で数えることができますか？ P.S.私はグーグルでグーグルで、テーマ別に語彙

3熱

2答えて

Rを使って周波数をテキストに変換するには？

私はこの（ID、周波数B C D E）のようなデータフレームを有する ID A B C D E 1 5 3 2 1 0 2 3 2 2 1 0 3 4 2 1 1 1 私はこのようなテストベースのドキュメント（単一の列内の単語としてIDとその周波数ABCDE）にこのデータフレームに変換します。次に、LDAアルゴリズムを使用して、各IDのホットトピックを特定することができます。 ID

0熱

1答えて

LDA/Biクラスタリング/ K平均を使用して時間的クラスタリングを行う方法R？

私はこのようなデータセットを持っています。このデータセットには、約1000人の乗客IDと、日曜日から土曜日までの時間1と時間12の間の移動頻度が含まれています。 BIクラスタリングを使用してこのデータセットをクラスタリングするのは可能でしょうか？それを行う方法。 ID T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 Day 1005 0 5 15 1 0 1 20

0熱

1答えて

Spark MLlib LDA入力フォーマットの理解

Spark MLlibを使用してLDAを実装しようとしています。しかし、私は入力形式を理解するのが難しいです。 hereが説明したように、私はこれの出力形式を理解し、私は http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda を追っ 1 2 6 0 2 3 1 1 0 0

0熱

1答えて

LDAモデルでの「良い」/「悪い」ケースの規定（Pythonでgensimを使用）

私は危機の期間を特定するためにニューススニペットを分析しようとしています。これを行うには、私はすでに過去7年間にニュース記事をダウンロードし、利用可能にしています。今、このデータセットにLDA（Latent Dirichlet Allocation）モデルを適用して、経済危機の兆候を示す国を特定します。私はヨルダンバーバーのブログ記事（https://rstudio-pubs-static.s

0熱

1答えて

LDA gensim。 Postgresデータベースをすべての文書の正しいトピック番号で更新するには？

私はデータベースとは別のドキュメントを取っていますが、LDA（gensim）で調べると、これらのドキュメントにはどのような潜在的なトピックがありますか。これはかなりうまくいく。私がしたいのは、最も可能性の高いトピックが何であるかをすべての文書のデータベースに保存することです。そして、私はそれに最適な解決策が何であるか分かりません。たとえば、最初に、text_columnと一緒にデータベースからすべ