マレットを使用する場合、各ドキュメントに関連付けられたトピックのリストを取得するにはどうすればよいですか? train-topicsと--output-topic-docsを使う必要があると思うが、そうしたときにエラーが出る。マレットを使用する場合、各ドキュメントに関連付けられたトピックのリストを取得するには
私はマレット(2.0.8)を使用している、と私は私のモデリングを行うには、次のbashスクリプトを使用します。
MALLET=/Users/emorgan/desktop/mallet/bin/mallet
INPUT=/Users/emorgan/desktop/sermons
OBJECT=./object.mallet
$MALLET import-dir --input $INPUT --output $OBJECT --keep-sequence --remove-stopwords
$MALLET train-topics --input $OBJECT --num-topics 10 --num-top-words 1 \
--num-iterations 50 \
--output-doc-topics ./topics.txt \
--output-topic-keys ./keys.txt \
--xml-topic-report ./topic.xml \
--output-topic-docs ./docs.txt
は残念ながら、./docs.txtは作成されません。代わりに、私は次のエラーを取得する:スレッド内
例外「メイン」とjava.lang.ClassCastException:java.net.URIはcc.mallet.topics.ParallelTopicModel.printTopicDocumentsでjava.lang.Stringで にキャストすることはできません(ParallelTopicModel .java:1773) at cc.mallet.topics.tui.TopicTrainer.main(TopicTrainer.java:281)
もっと具体的には、私はMalletにドキュメントのリストとそれらに割り当てられた関連トピックを生成したい私は話題のリストと関連する文書のリストが必要です。そのようなリストを作成するにはどうすればいいですか?
はい、ありがとうございます。バージョン2.0.7では、 - output-doc-topicsオプションが使用されたときにファイルが出力されます。新しいバージョンのMalletで問題が解決されるまで、私はバージョン2.0.7を引き続き使用します。ありがとう、jknappen。 – ericleasemorgan