0
MALLETは、トピックモデルのトレーニング中に--output-doc-topics
パラメータを使用して、各ドキュメントのトピック配布を含むタブ区切りファイルを生成します。MALLETのトピック配布ファイルの列の順序を変更
doc# filename topic# weight
0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ...
ただし、このファイルは次の処理のために別にソートする必要があります。現在、列はトピック重みの降順(0.211 ...、0.133 ...など)でソートされます。しかし、昇順のトピック番号(0,1,2、...)とそれに対応する重みで並べ替えることも可能ですか?
最初は、Excelで並べ替えができると思っていましたが、ファイルが大きすぎます(> 20 GB)。
多分これのためのMALLETパラメータがありますか?私は既に--help
セクションを見てきましたが、関連するものは見つかりませんでした。
そうでなければ、この種のソートが可能なツールまたはAPIをお勧めできますか?
ありがとうございました!
パーフェクトは、あなたに感謝します。 – phly