2017-03-16 24 views
0

MALLETは、トピックモデルのトレーニング中に--output-doc-topicsパラメータを使用して、各ドキュメントのトピック配布を含むタブ区切りファイルを生成します。MALLETのトピック配布ファイルの列の順序を変更

doc# filename topic# weight 
0 file:/.../document_01.txt 3  0.2110215053763441 14 0.1330645161 ... 

ただし、このファイルは次の処理のために別にソートする必要があります。現在、列はトピック重みの降順(0.211 ...、0.133 ...など)でソートされます。しかし、昇順のトピック番号(0,1,2、...)とそれに対応する重みで並べ替えることも可能ですか?

最初は、Excelで並べ替えができると思っていましたが、ファイルが大きすぎます(> 20 GB)。

多分これのためのMALLETパラメータがありますか?私は既に--helpセクションを見てきましたが、関連するものは見つかりませんでした。

そうでなければ、この種のソートが可能なツールまたはAPIをお勧めできますか?

ありがとうございました!

答えて

1

あなたが最新バージョン(2.0.8)を取得する場合、デフォルトはトピックIDによってソートされた順序ですべてのトピックを表示するには、次のとおりです。

--doc-topics-max INTEGER 
    When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics. A negative value indicates that all topics should be printed. 
    Default is -1 
+0

パーフェクトは、あなたに感謝します。 – phly

関連する問題