感情から肯定的/否定的な単語を抽出してNaive Bayes分類子を訓練しようとしています。例:DBに保存する100万文 - 関連性の低い英語の単語を削除する
私は:)この映画を愛する)
雨が降るとき、私は嫌い:(
アイデアは、私が使用しemoctionsに基づいて正または負の文章を抽出しているが、分類器を訓練するために、
問題は100万以上の文があるので、単語ごとに訓練すれば、データベースはトスになります。関連性の低い単語の例をすべて削除したい'私'、 'これ'、 'いつ'、 'それ'なので、データベースクエリを作成する回数が少なくて済む
はありがとう、私にそれ
を行うためのより良い方法を提案するために、この問題を解決するには、私を助けてください
2つの一般的なアプローチがあり
をこのをチェックアウトする場合があります否定的な文章。これは、あなたが行くか、プレパスとして自動的にいくつかの単語を失格させるアルゴリズムを設計するのに役立つかもしれません。 – aschepler
「データベースはトスに行く」というフレーズは+1 – Stompchicken
これはデータベースでなければならないのですか?フルテキスト検索エンジンはどうですか?または単純なデータ構造ですか?感情分析のさまざまな要件についてはhttp://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Full-Text-Search-Engine-versus-DBMS –