2016-05-15 1 views
3

9GBコーパスでLDAトピックモデリングを行いたいと思います。 100回のトピックで1000回の繰り返しをMALLETで行い、200回の反復バーンイン期間後に10回の反復ごとにハイパーパラメータを最適化するLDAモデルのトレーニングを計画しています。 私は64ビットWin8で作業しています。コンピュータには16GBのRAM、Intel®Core™i7-4720HQプロセッサが搭載されています。 これはどれくらいの時間を要すると言えるでしょうか?何時間か何日も話していますか? これは私がここで求めている最初の質問です。重要な情報をスキップした場合は、お知らせください。9GBコーパスでMALLETを使って話題をモデリングするのにどれくらい時間がかかりますか?

答えて

4

興味がある人のために、最終的にトピックモデリングを実行しました(問題の詳細はこちら)。終了するまでに約2日かかりました(1日20時間)。

2

正確な時刻は、コーパスの複雑さによって異なります。不確実性が低下するため、モデルがより良く適合し始めると、サンプリングがより速く始まります。私はおそらく良いモデルを得るために一日の注文を推測するでしょう。

データのインポートは、最も困難な部分です。 "bulkload"コマンドは、1行に1つの文書を含む大きなファイルで構成されるインポートのメモリフットプリントを減らすように設計されています。このコマンドは、単語の頻度に基づいて語彙刈り込みを行います。

ハイパーパラメータの最適化を行っているこのサイズのコーパスについては、より多くのトピックを使用することを検討してください。 500トピックを使用すると、おそらく100トピックを取ることになります。なぜなら、モデルがよりよく適合するほどサンプリングが速くなるのと同じ理由からです。

+0

私の質問に答えてくれてありがとうと、私に助言をくれてありがとう。ではごきげんよう! – GileBrt

+0

@jknappenはい、私はこれを知っています。問題は、私はまだそれを行うのに十分な評判がないということです。私がそれを得ると、私はupvoteを確認します。 :) – GileBrt

関連する問題