2012-05-11 2 views
0

私はNLPの問題を抱えており、私はSVMでWEKAで分類することを計画しています。 私は単語を分類しようとしています - POSタグセットには24個のタグがあり、ベースフレーズチャンク(BPC)タグセットには15個のタグがあります。WEKAのSVMトレーニングの名目属性の名目値の最大数はいくらですか?

しかし、私は "フィーチャセット"を持っていますが、それぞれの特徴ごとに各単語を分類したいと思います。

最初の機能セットは{POS}なので、公称属性POSの公称値は24です。 2番目の値は{POS + BPC}なので、POS + BPC公称属性の24 * 15 = 375公称値になります。

各公称属性を分類してしたがって、たとえば言葉は、このように出力される場合があります:

word, POS=tag1, POS+BPC=tag234 

これが可能である場合、私はちょうど思ったんだけど?公称属性に対して持つことができる(クラス)名目値の最大数はいくらですか?なぜなら、より多くのタグセットとそれ以上の組み合わせを使用しているからです。 LibSVMパッケージを使用する必要がありますか? SVMを使用してこのマルチクラスの問題を実行することは理にかなっていますか?

私のトレーニングデータセットは約です。 288K語、私のテストデータセットはおよそです。 35k語。

+0

"class"という単語を使用すると非常に混乱します。名目値*を意味します。 *クラス*はあなたが予測しようとしているものです。 –

答えて

0

私は300万の機能を持ち、wekaを使って分類子を作成している人を知っています。しかし、彼はwekaに提供されるメモリを1GBから3GBに増やす必要がありました。彼の設定に比べ、2つの機能がありますが、3桁の値の範囲があります。私は、記憶上の問題以外には何の問題もあってはならないと信じています。 Wekaは大規模な採掘作業台です。なぜあなたは健全性テストとしていくつかのサンプルを実行し、頭をアップしないでください?

関連する問題