2011-07-14 10 views
1

私はApache Mahoutと協力して、適切なサイズのドキュメント(〜500k)をベクトル化してクラスタ化しています。プロジェクトのウェブサイトとMahout in Actionの両方の例での作業では、minLLRのパラメータがseq2sparseと数回使われていますが、どのような値が期待されているのかは分かりません。このパラメータの適切な値を見積もるための「開始地点」や方法はありますか?Apache Mahout-MinLLRパラメータを使用したドキュメントのベクトル化

答えて

2

LLR値は正規化されていないため、1つの良い答えがあるとは思われません。そして答えは、あなたがどれくらい剪定したいかによって決まります。 LLRの値は、あなたのコーパスのサイズ(よく、nグラム数)に比例して増加します。デフォルト値の1.0は妥当で、私はちょうどあなたが正しい値を実験的に見つけて、それを入力の大きさに基づいて線形的に他の入力に拡大するようアドバイスします。

関連する問題