テキストの前処理: はそれの基本単語にトークンを正規化するために、ケースを下げるために、すべてのテキストを変換するユニグラムにトークン化、すべての単語を停止、削除、利用ステマー。
私があなたが話したフリーテキストであるドキュメントを分類するために考えられる2つのアプローチがあります。各フリーテキストは文書です。
1)教師ありの分類時間をかけてランダムにいくつかのサンプルを選択し、それらのカテゴリを割り当てます。カテゴリごとに複数のドキュメントがあり、予測するすべてのカテゴリがカバーされるまで、これを実行します。
次に、このテキストからTf-Idf行列を作成します。上位K個の機能(最高の結果を得るためにKの値を調整)を選択します。また、SVDを使用して、相関フィーチャを1つにまとめることでフィーチャの数を減らすこともできます。顧客サービス担当の部署などの他の機能や、他の多くの機能を予測機能として使用できることに注意してください。今、機械学習モデルを訓練し、それをテストします。
2)教師なし学習:出力変数に含まれるカテゴリの数がわかっている場合は、その数を作成するクラスタの数として使用できます。上の手法からのTf-Idfベクトルを使用し、k個のクラスタを作成する。各クラスタからランダムにいくつかの文書を選択し、文書がどのカテゴリに属するかを決定します。 5つの書類を選んで、「払い戻しを求めています」というカテゴリに属していることに気づいたとします。このクラスター内のすべての文書に「払い戻し希望」とラベルを付けます。残りのすべてのクラスタでこれを実行します。
教師なし学習の利点は、事前分類とデータ準備の苦労を軽減しますが、教師なし学習には注意してください。精度は教師あり学習ほど良くないかもしれません。
説明されている2つの方法は、何ができるかの抽象的な概要です。これで、アイデアが得られました。トピックの詳細を読んだり、rapidminerのようなツールを使用して作業をはるかに高速化することができます。
ワウ。それは...強力です。どうもありがとうございます。 Rで実装されていることを知りたい人は、こちらをご覧ください:http://stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics-different-documents-belong-to – meb33