2016-04-29 5 views
-1

私はwekaで新しいです。weikaでデータセット(stringToWord)フィルタを分類

私は特定の会社についてのデータセット(ツイッターデータ)を持っています。 フィルタは私が使用しました:string to word ..と私はオプションwordstokeep = 100を変更して精度を向上させます。 その後、私は分類器を適用: KSTAR 55%、ランダムフォレスト57%、SMO 58% これらのないよう、最も良い結果を..

enter image description here

任意のアイデアは、それは私は非常によく、それを改善するのに役立ち、そこにあります> >

+0

Twitterデータなどのさまざまなデータにはトレーニングデータが足りないことがあります。 –

答えて

0

まず、データを前処理してみてください。 Twitterのデータには多くのノイズが含まれています。削除:あなたが行うことができます

  1. URL
  2. リツイート
  3. ハッシュタグ
  4. 特殊文字を もう一つは、nグラムを使用することです。異なるnグラムを試して、どれがあなたに最も適しているかを確認してください。私のテイクはunigrams + bigramsと一緒に行きます。

また、naiveBayesMultinomialクラシファイアを使用することをお勧めします。これは、特に感情分析でテキスト分類を使用するのが最も効果的です.Plusも超高速です。コードでデータを前処理する場合は、私に教えてください:)

関連する問題