lda

2熱

2答えて

私はLDAをテスト目的で2つのドキュメント（文章）の小さなコーパスで実行しています。以下のコードは、入力文書が与えられても合理的ではないトピック用語と文書 - トピックの分布を返します。まったく同じ結果をPythonの妥当な結果で実行しています。ここで何が間違っているのですか？次のようにPythonのから library(topicmodels) library(tm) d1 <- "

0熱

1答えて

matlabを使用したSWLDAによる脳波データ分類

EEGデータ分類であなたの助けを求めます。私はEEGデータを分析しようとする大学院生です。は、今私はMatlabのを使用してSWLDAで分類するERPのスペルチェック（P300）に苦しんでいますたぶん私のコードで間違った何かがあります。私はいくつかの記事を読んでいますが、詳細はあまり詳しく述べていません。私のデータサイズは以下の通りです。サイズ（ターゲット）= [300 1856] サ

0熱

1答えて

トピックモデリングの命令解釈

トピックモデリング（lda）に関する質問があります。トピックモデリングの原則を完全に理解していないため、質問が奇妙に思えるかもしれません。最後にこのフレーズはランダムですが、それは高い頻度（確率）ですか？ test = ranking[:5] このフレーズの正確な意味はなんですか？私のコードは、ドキュメントの数と同じ数のトピックを取得しました（ドキュメントの数よりも減らすことはできないと

0熱

1答えて

PySpark LDAモデルDense Vector from DDD

私はApache Spark LDAモデルにデータを供給するように設定しました。私がRDDにいくつかの英数字の値を持っているので、私が持っている1つのハングアップは、リストを密ベクトルに変換しています。サンプルコードを実行しようとするとエラーが発生するのは、文字列をfloatに変換することです。高密度ベクトルと浮動小数点について私が知っていることを知っているが、これはトピックモデルであるため、こ

2熱

1答えて

のみgensim

私はGensimを使用してLDAモデルを構築しで話題のワードにアクセスしないと私は唯一の無確率話題の単語を取得するにはどうすればよいだけの話題の単語を取得したいと私が試しただけ何IDs.wordsする方法print_topics（）とshow_topics（）はgensimで機能しますが、クリーンな言葉を得ることはできません！これは私がshow_topicsを試してみましたが、私はその言葉やそ

1熱

1答えて

トピックをPythonのLDAの各トピックの上位20語のリストに変換する方法

現在、私はLDAの対数をPythonで処理しています。話題を各トピックの上位20語のリストに変換したい私はコードの下で試したが、別の出力を得た。私の出力は、次の形式で入力してください：topic=2,words=20 ["(u'ngma', 0.034841332255132154)", "(u'video', 0.0073756817356584745)", "(u'youtube', 0.0

1熱

2答えて

複数のファイルの出力を配列に渡す方法

自分のファイルに対してldaモデルを実行しようとしています。まず、トークン化や単語削除のような前処理を行いました。私は複数のファイルに対してこれをやっていますが、最終出力をldaモデルに渡すとエラーになり、ldaが複数のファイルを入力として受け取ることがGoogleで分かりました。今、私は各ファイルの出力を配列に格納し、その配列を入力として渡したいが、IndexError：リスト割り当てインデッ

0熱

1答えて

LDAを適用した後に自動的にトピックにラベルを付ける方法

私はLDAをpython.nowで実装しました。私がLDAから得たトピックにラベルを付けるとします。トピックモデルの [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"')

2熱

1答えて

text2vecとtopicmodelsは、LDAに適したパラメータ設定で同様のトピックを生成できますか？

私は、異なるパッケージの結果、したがってアルゴリズムがどのように異なっているのか、同様のトピックを生成するためのパラメータを設定できるのかどうか疑問に思っていました。私は特にパッケージtext2vecとtopicmodelsを見ました。これらのパッケージで生成された10のトピック（用語についてはコードセクションを参照）を比較するために以下のコードを使用しました。私は、同様の意味を持つトピックの集

0熱

1答えて

LDA $新モデルコンストラクタtext2vec Rパッケージエラー：.subset2でエラーが発生しました（public_bind_env、 "初期化"）（...）：未使用の引数（...）

エラーは次のとおりです。 > lda_model = LDA$new(n_topics = 3, vocabulary = vocab, doc_topic_prior = 0.1, topic_word_prior = 0.01) Error in .subset2(public_bind_env, "initialize")(...) : unused argument (voca