1

ソーシャルネットワーク(FB、twitter)からのコメント、一般および地域のニュースや雑誌などからのコメントを含む約6000件のコーパスがあります。私はこれらのテキストの最初の300件を読んで、これらの300個のテキストのそれぞれを顧客の苦情または非苦情としてタグ付けしています。テキストからCOMPLAINT機能を抽出して非苦情テキストからの苦情を分類する方法

私は、素朴な言葉の袋の代わりに、これらの苦情や非苦情のテキストをどのように正確に抽出することができますか?私の目標は、LiblinearのようなSVMや他の分類アルゴリズム/ライブラリを使用して、これらのテキストの残りの部分を現在の300文字の訓練セットに苦情または非苦情として最も正確に分類することです。この手順は、感情分析に似ていますか?そうでない場合、どこから始めたらよいですか?

答えて

0

私はあなたのバッグの言葉がそれほど素朴ではないことがわかると思います。実際には、データをSVMに与えるための完全な有効な方法です。十分な精度が得られない場合は、ユニグラムだけでなく、あなたの特徴ベクトルに常にバイグラム、つまり単語のペアを含めることができます。

関連する問題