Spark MLlibを使ってLDAトピックモデリングを適用することに興味があります。私はhereのコードと説明をチェックしましたが、モデルを使って新しい目に見えない文書のトピックの分布を見つける方法を見つけることができませんでした。Spark MLlib LDA、新しい目に見えない文書のトピック配布を推測する方法は?
13
A
答えて
13
Spark 1.5では、DistributedLDAModel
ではこの機能が実装されていませんでした。
newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)
:何をする必要があるとしていること
toLocal
方法を使用して
LocalLDAModel
にモデルを変換し
documents
は、新しい(すなわち、アウト訓練)文書である
topicDistributions(documents: RDD[(Long, Vector])
メソッドを呼び出して、このようなものです
これは、this paperが示唆しているEMアルゴリズムよりも精度は低くなりますが、動作します。あるいは、新しいオンライン変分EMトレーニングアルゴリズムを使用して、すでにLocalLDAModel
という結果を得ることもできます。より速くなることに加えて、この新しいアルゴリズムは、フィッティングDistributedLDAModels
の古いEMアルゴリズムとは異なり、ドキュメントのトピック混合重みよりも前にディリクレのパラメータ(アルファ)を最適化しているために好ましい。 Wallach, et. al.によれば、アルファの最適化は、良いトピックを得るためには非常に重要です。
関連する問題
- 1. gensimのLDAトピックの単語の完全な配布方法は?
- 2. 新しいデータのLDAトピックを予測する
- 3. LDA空間における文書のトピック分布は確率的か?
- 4. Spark MLlib LDA入力フォーマットの理解
- 5. LDA gensim。 Postgresデータベースをすべての文書の正しいトピック番号で更新するには?
- 6. テンソルフローの畳み込みニューラルネットの新しい目に見えない例の結果を予測する方法
- 7. トピック索引をLDAのトピック単語に変換する方法
- 8. LDAのトピック数の決定方法は?
- 9. LDAの文書トピックの確率を改善する
- 10. Java名推測ゲーム - 配列文字列にアクセスする方法
- 11. Spark MLlibでユーザベースの推奨を行うには?
- 12. Spark MLlibとSpark MLのPCA
- 13. クリックすると目に見えない目に見えるアンドロイドクロノメーターの作り方
- 14. pygameで目に見えないスプライトを作る方法は? (Python)
- 15. メールに「目に見えない」を設定する方法 - PHP
- 16. コンピュータが数字を推測して推測数(Javascript)を返す方法を教えてください。
- 17. 新しい文書を散布図にプロットする
- 18. f1scoreのspark mllibのしきい値
- 19. 訓練されたモデル上で新しい目に見えない文書の境界値または混乱値を取得する方法は?
- 20. java apache spark mllib
- 21. 新しいデータにspark mllib LinearRegressionモデルを保存して再利用する
- 22. appstoreで配布しないでAndroidアプリケーションを自動更新する方法は?
- 23. gensim LDAを使用してドキュメントの完全なトピック配布を取得するにはどうすればよいですか?
- 24. pyspark(2.1.0)LdAを使用して各文書に関連するトピックを取得するには?
- 25. text2vecからトピック確率テーブルを取得する方法LDA
- 26. アンドロイドのボタンに目に見えるものと目に見えないものを使う方法
- 27. Spark MLlibモデルを提供するには?
- 28. Spark MLlibリコメンダーエンジンのメソッド
- 29. spark mllibのロジスティック回帰における生の予測は何ですか?
- 30. 目に見えないVBSファイルを閉じる方法
ありがとうございました。答えは非常に便利です!可能であれば、topicDistributionsの出力をどのようにしてより表現可能な結果に抽出するかについてもっと詳しく説明できますか? – HappyCoding
私はこれを実装し、topicDistributions [ここ](https://gist.github.com/alex9311/774089d936eee505d7832c6df2eb597d)を印刷する方法を示しました – alex9311
1.6のために何か変更されましたか? –