これは最も単純なアルゴリズムで、すべてが独立したものとみなされているが、実際のテキスト分類の場合には、この方法では素晴らしい仕事。そして、私はこのアルゴリズムを最初に試してみます。
KNNは、クラスタリングではなく、分類のためです。私はあなたがクラスタリングと分類の概念を誤解していると思います。
SVMは、クラス分類及び予測を行うためにSVC(分類)とSVR(回帰)アルゴリズムを有しています。いつかはうまくいくが、私の経験からは、良いトークナイザ(フィルタ)に対する高い要求があるため、テキスト分類ではパフォーマンスが悪い。しかし、データセットの辞書には常に汚れたトークンがあります。精度は本当に悪いです。
私は、テキスト分類のために、この方法を試したことがありません。意思決定ツリーにはいくつかの重要なノードが必要だと思うので、テキスト分類のために「いくつかのキートークン」を見つけるのは難しいが、ランダムなフォレストは高スパースディメンションではうまく機能しない。
FYI
これらは、私の経験から、すべてのですが、あなたのケースのために、あなたはあなたのモデルに合うように、すべてのアルゴリズムをしようとするが、使用するためにどの方法を決めるには良い方法があります。
ApacheのMahoutは機械学習アルゴリズムの優れたツールです。それは、推奨、クラスタリング、および分類という3つの側面のアルゴリズムを統合します。このライブラリを試すことができます。しかし、あなたはHadoopに関するいくつかの基本的な知識を習得しなければなりません。
機械学習の場合、wekaは多くのアルゴリズムを統合した経験のためのソフトウェアツールキットです。
KNNとナイーブベイはどうですか? – zsh
あなたはすでにそれらをどうやってやっているのか知っていたと思った。 –
はい、どのメソッドが自分のproblem.iに最適なのかを知りたいのは、あらかじめ定義された10個未満のクラスです。 – zsh