mallet

-1熱

1答えて

私はこのタイプのコンピュータワークを本当に新しくしており、パスの作成に問題があります。私はオンラインでこれを行う方法についてのチュートリアルを見て、ティーにすべてを従いましたが、ディレクトリパスを変更しようとするとうまくいきません。ここで私は何をしたのですか - Java開発キットダウンロードMallet 2.0.7 Mallet 2.0.7をCドライブに移動新しい環境変数C：\ mallet

0熱

1答えて

MALLETのトピック配布ファイルの列の順序を変更

MALLETは、トピックモデルのトレーニング中に--output-doc-topicsパラメータを使用して、各ドキュメントのトピック配布を含むタブ区切りファイルを生成します。 doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... ただし、このファイルは

1熱

2答えて

マレット構成ファイルのヌルソース

トレーニングトピックにマレットを使用したいと思います。私のデータは一つのファイルになっていますので、このOne Singleファイルの構築方法については、マレットのドキュメントを調べます。 Mallet websiteで、つのファイル、1つのインスタンスあたりの行セクションの下で、それは言った： [URL] [言語] [ページのテキスト...] でこの場合、各行の最初のトークン（空白で区切られ

5熱

1答えて

MALLET topic-inference

私はMALLETの訓練されたトピックモデルに基づいて文書のトピックを推測しようとしています。私はマレットDIR ./mallet infer-topics --inferencer topic-model --input indata.mallet --output-doc-topics infered_docs で次のコマンドを使用していますが、キャスト例外で立ち往生：は java.lang.C

1熱

1答えて

階層LDAは使用可能なすべてのメモリを使い果たしてしまいません

私はメーリングリストのメンバーシップが確認されるのを待っています。トピックモデリングに関する私の卒業論文を書いており、LDAとHLDAのMallet実装を使用しています。私は4m以上の文書を処理しています。 LDA（ParallelTopicModel）がデータセットをうまく処理していて問題は発生しませんが、HLDAは使用可能なメモリをすべて埋める前に5-6回繰り返すことはできません（私は90

1熱

2答えて

マレットでトピックの単語の確率を得る方法

私はデータを探索するために、マレットでLDAを使用しています。私は、クエリがどうなるか分からない bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-keys tutori

2熱

1答えて

マレットでトピックの単語の重みがどのように計算されますか？

私はトピックの各単語に割り当てられた重みがMalletでどのようなものであるかを調べようとしています。私はそれが何らかの形の文書発生カウントであると仮定しています。しかし、私はその人物がどのように到着したかを理解するのに苦労しています。私のモデルでは、複数のトピックに複数の単語があり、それぞれのトピックに異なる重みが割り当てられているため、数字はコーパス全体の単語数ではありません。私の次の推測

1熱

1答えて

マレットを使用する場合、各ドキュメントに関連付けられたトピックのリストを取得するには

マレットを使用する場合、各ドキュメントに関連付けられたトピックのリストを取得するにはどうすればよいですか？ train-topicsと--output-topic-docsを使う必要があると思うが、そうしたときにエラーが出る。私はマレット（2.0.8）を使用している、と私は私のモデリングを行うには、次のbashスクリプトを使用します。 MALLET=/Users/emorgan/desktop/