私はsklearnのNMFおよびLDAサブモジュールを使用して、ラベルのないテキストを分析しています。私はドキュメントを読んだが、これらのモジュール(NMFとLDA)の変換関数がRのtopicmodels(Predicting LDA topics for new dataを参照してください)の事後関数と同じであるかどうかはわかりません。基本的には、トレーニングセットのデータを訓練したモデルを使用してテストセットのトピックを予測できるような機能を探しています。私はデータセット全体について話題を予測しました。次に、データを列車と試験セットに分割し、列車セットのモデルを訓練し、そのモデルを使用してテストセットを変換しました。 2つの実行トピックを比較すると、変換関数がRのパッケージと同じ機能を果たすことは保証されません。私はあなたの反応に感謝します。 python - sklearn潜在的ディリクレ割り当て変換対フィッツトランスフォーム
あなたは
4
A
答えて
6
LatentDirichletAllocation
モデル上のtransform
への呼び出しが非正規化文書のトピック分布を返し感謝します。適切な確率を得るには、結果を正規化するだけです。次に例を示します。
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.datasets import fetch_20newsgroups
import numpy as np
# grab a sample data set
dataset = fetch_20newsgroups(shuffle=True, remove=('headers', 'footers', 'quotes'))
train,test = dataset.data[:100], dataset.data[100:200]
# vectorizer the features
tf_vectorizer = TfidfVectorizer(max_features=25)
X_train = tf_vectorizer.fit_transform(train)
# train the model
lda = LatentDirichletAllocation(n_topics=5)
lda.fit(X_train)
# predict topics for test data
# unnormalized doc-topic distribution
X_test = tf_vectorizer.transform(test)
doc_topic_dist_unnormalized = np.matrix(lda.transform(X_test))
# normalize the distribution (only needed if you want to work with the probabilities)
doc_topic_dist = doc_topic_dist_unnormalized/doc_topic_dist_unnormalized.sum(axis=1)
あなたのような何かを行うことができますランキング上位のトピックを検索するには:
doc_topic_dist.argmax(axis=1)
+0
私は考えていたRyan、NMFモデル、LDAは少なくともldaモジュール(Sklearnではない)が2つの行列WとHを生成すると信じてくれてありがとうございます。最初にX_test = tf_vectorizer .transform(test)を実行してからX_test * HT? – valearner
関連する問題
- 1. 潜在的なディリクレの割り当て結果を可視化
- 2. トピックモデリング - カテゴリ2のトピックを含むドキュメントをカテゴリラベルとして割り当てる - sklearn潜在ディリクレ割り当て
- 3. R監督付き潜在ディリクレ割り当てパッケージ
- 4. Sparkでの潜在ディリクレ割り当て(LDA)
- 5. Pythonの潜在的ディリクレ配分Stopped_tokensエラー
- 6. 潜在ディリクレ割り当てから変換メソッドを使用したときのエラー
- 7. iphoneに割り当てられたオブジェクトの潜在的なリーク
- 8. Rの潜在的なリリチッチの割り当て
- 9. Obj-C、行に割り当てられたオブジェクトの潜在的なリーク、UIBarButtonItem alloc
- 10. iPhoneが潜在的にラインに割り当てられたオブジェクトのリーク...
- 11. Obj-C、行に割り当てられたオブジェクトの潜在的なリーク、警告?
- 12. クラスメソッドと「行に割り当てられたオブジェクトの潜在的な漏れ...」
- 13. コーパス文書の単語サイズを制限することによる潜在的なディリクレ割り当て(LDA)のパフォーマンス
- 14. 'annot'に割り当てられて格納されているオブジェクトの潜在的なリーク
- 15. 割り当て反対タグ
- 16. 変数の割り当て - OpenCV/Python
- 17. Pythonの変数割り当てクエリ
- 18. Pythonの静的変数の再割り当て
- 19. Pythonのforループに変数を動的に割り当てる
- 20. Python静的変数割り当て解除
- 21. 静的対動的CUDA共有メモリ割り当てのパフォーマンス
- 22. 123行目に割り当てられ、 'page'に格納されたオブジェクトの潜在的なリーク
- 23. 行82に割り当てられ、データに格納されたオブジェクトの潜在的なリーク
- 24. ppmap/parallel pythonに潜在的なデッドロックがありますか?
- 25. rlm対Python sklearn linear_model
- 26. Pythonリストの割り当てとメモリ割り当て
- 27. 静的割り当てと動的割り当てとの比較自動割り当て
- 28. Python並列割り当て
- 29. 動的割り当て
- 30. 動的割り当てstucks
あなたはscikit-学ぶどのバージョンを使用していますか? –
また、結果が異なることを示したのは何ですか? –
Mikhail、ありがとう、0.18。私の目標は、変換関数がテストセット内のトピックを予測する機能を提供するかどうかを理解することです。ありがとう – valearner