2017-03-10 16 views
1

マレットを使用する場合、各ドキュメントに関連付けられたトピックのリストを取得するにはどうすればよいですか? train-topicsと--output-topic-docsを使う必要があると思うが、そうしたときにエラーが出る。マレットを使用する場合、各ドキュメントに関連付けられたトピックのリストを取得するには

私はマレット(2.0.8)を使用している、と私は私のモデリングを行うには、次のbashスクリプトを使用します。

MALLET=/Users/emorgan/desktop/mallet/bin/mallet 
INPUT=/Users/emorgan/desktop/sermons 
OBJECT=./object.mallet 

$MALLET import-dir --input $INPUT --output $OBJECT --keep-sequence --remove-stopwords 

$MALLET train-topics --input $OBJECT --num-topics 10 --num-top-words 1 \ 
--num-iterations 50 \ 
--output-doc-topics ./topics.txt \ 
--output-topic-keys ./keys.txt \ 
--xml-topic-report ./topic.xml \ 
--output-topic-docs ./docs.txt 

は残念ながら、./docs.txtは作成されません。代わりに、私は次のエラーを取得する:スレッド内

例外「メイン」とjava.lang.ClassCastException:java.net.URIはcc.mallet.topics.ParallelTopicModel.printTopicDocumentsでjava.lang.Stringで にキャストすることはできません(ParallelTopicModel .java:1773) at cc.mallet.topics.tui.TopicTrainer.main(TopicTrainer.java:281)

もっと具体的には、私はMalletにドキュメントのリストとそれらに割り当てられた関連トピックを生成したい私は話題のリストと関連する文書のリストが必要です。そのようなリストを作成するにはどうすればいいですか?

答えて

0

少なくともマレット2.0.7では、それは所望のテーブル(各文書のトピック構成)を与える--output-doc-topics ./topics.txtです。出力フォーマットが2.0.7から2.0.8に変更されても、ファイルのメインコンテンツは同じままです。

+0

はい、ありがとうございます。バージョン2.0.7では、 - output-doc-topicsオプションが使用されたときにファイルが出力されます。新しいバージョンのMalletで問題が解決されるまで、私はバージョン2.0.7を引き続き使用します。ありがとう、jknappen。 – ericleasemorgan

関連する問題