2017-02-07 5 views
1

私はデータを探索するために、マレットでLDAを使用しています。私は、クエリがどうなるか分からないマレットでトピックの単語の確率を得る方法

bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-keys tutorial_keys_doc_40t.txt --output-doc-topics tutorial_composition_doc_40t.txt 

:私はちょうど私がトップの単語の確率を持っている必要があり、ランニングに問題を持っていない私は、このクエリを使用

を(の20個の言葉を言わせて)単語の確率のために。

答えて

2

--topic-word-weights-file FILENAMEオプションを使用することができます。

出力ファイルの形式は、weightがトピック内の単語の確率に比例している

topic [tab] word [tab] weight 

です。トピックの重みの合計で除算し、正規化された確率を得る。

1

遅い回答ですが、誰かが助けてくれるかもしれません。

MALLET 2.0.8には、各トピックとそのトップワードの一連のメトリックを含む非常に興味深い診断ファイルを出力する新機能があります。単語の確率はその一つです。

train-topicsコマンドに--diagnostics-file FILENAMEを単に追加してください。

トピックごとに記述された単語の数は、 "--num-top-words"で定義された数と同じです。

詳細なドキュメントへのリンク:http://mallet.cs.umass.edu/diagnostics.phpです。トピックを再編成したくない場合は、 "状態"ファイルを使用して診断ファイルを出力することができます。すべてがリンクに記述されています。

関連する問題