2017-02-05 28 views
0

コールセンターとのカスタマーインタラクションの観測データが1M以上あります。テキストは、代表者が電話をかけて書いたフリーテキストです。テキストは形式が整っておらず、文法的に正しいものでもありません(短い手がたくさんあります)。どのようなラベルを提供するのかわからないので、フリーテキストにはデータ上にラベルがありません。テキスト分類 - ラベル前工程

データのサイズが与えられている場合、作成するラベルを決定する際の合理的な第一歩は、データの無作為抽出のサンプルですか?データから400以上のランダムな観測値を手動でラベル付けする必要がないか、または分類に使用するラベルの適切なセットを決定するためにデータを前処理する他の方法はありませんか?

問題に関するお手伝いをお待ちしております。

答えて

1

あなたのラベルに対応する理想的な文書が非常に良いアイデアを持っているので、手動注釈は良い選択です。

しかし、データセットのサイズが大きい場合、LDAをドキュメントに合わせて生成されたトピックを見ることをお勧めします。これは、テキスト分類に使用できるラベルの良いアイデアです。

のテキスト分類にLDAを使用することもできます。ラベルの代表的な文書を見つけて、その文書に最も近い文書を類似メトリック(たとえば、余弦)で見つけることができます。

また、ラベルのアイデアが得られたら、LDAを使用して手動介入することなくラベルを割り当てることもできますが、教師なし学習に制限されます。

希望すると便利です。

P.S. - すべてのストップワードを削除し、前処理段階で同様の言葉の言葉(管理、管理、管理)をまとめてクラブに使用してください。

+0

ワウ。それは...強力です。どうもありがとうございます。 Rで実装されていることを知りたい人は、こちらをご覧ください:http://stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics-different-documents-belong-to – meb33

1

テキストの前処理: はそれの基本単語にトークンを正規化するために、ケースを下げるために、すべてのテキストを変換するユニグラムにトークン化、すべての単語を停止、削除、利用ステマー。

私があなたが話したフリーテキストであるドキュメントを分類するために考えられる2つのアプローチがあります。各フリーテキストは文書です。

1)教師ありの分類時間をかけてランダムにいくつかのサンプルを選択し、それらのカテゴリを割り当てます。カテゴリごとに複数のドキュメントがあり、予測するすべてのカテゴリがカバーされるまで、これを実行します。

次に、このテキストからTf-Idf行列を作成します。上位K個の機能(最高の結果を得るためにKの値を調整)を選択します。また、SVDを使用して、相関フィーチャを1つにまとめることでフィーチャの数を減らすこともできます。顧客サービス担当の部署などの他の機能や、他の多くの機能を予測機能として使用できることに注意してください。今、機械学習モデルを訓練し、それをテストします。

2)教師なし学習:出力変数に含まれるカテゴリの数がわかっている場合は、その数を作成するクラスタの数として使用できます。上の手法からのTf-Idfベクトルを使用し、k個のクラスタを作成する。各クラスタからランダムにいくつかの文書を選択し、文書がどのカテゴリに属する​​かを決定します。 5つの書類を選んで、「払い戻しを求めています」というカテゴリに属していることに気づいたとします。このクラスター内のすべての文書に「払い戻し希望」とラベルを付けます。残りのすべてのクラスタでこれを実行します。

教師なし学習の利点は、事前分類とデータ準備の苦労を軽減しますが、教師なし学習には注意してください。精度は教師あり学習ほど良くないかもしれません。

説明されている2つの方法は、何ができるかの抽象的な概要です。これで、アイデアが得られました。トピックの詳細を読んだり、rapidminerのようなツールを使用して作業をはるかに高速化することができます。

関連する問題