2011-09-14 4 views
1

問題があり、どのアルゴリズムを適用する必要があるのか​​わからない。 私は2つのケースでクラスタリングを適用することを考えていますが、ケース1の場合は考えません。定義済みのカテゴリが利用できないときにテキストを分類する方法

私は500万のクレジットカードアクティビティ文書を持っています。各ドキュメントは明確に定義されており、1行に1トランザクションが含まれています。日付、金額、小売業者名、小売業者の短い5〜20ワードの説明。 サンプル: 2004-11-47、$ 500 Amazon、書籍、ハードウェア、音楽などを含む商品やサービスを提供するオンライン小売業者 質問: 1.事前定義されたカテゴリがない場合、各エントリをどのように分類するのか。 2.「レストラン」、「エンターテインメント」などの定義済みのカテゴリが指定されている場合、これはどのように行いますか?

+0

このプロジェクトの目的は何ですか? –

答えて

0

1)事前定義されたカテゴリがない場合、どのように各エントリを分類しますか?

あなたはそうではありません。代わりに、2次元でデータのフィーチャに次元削減アルゴリズムを使用し、「自然」クラスタの数を推測し、クラスタリングアルゴリズムを実行します。

2)あなたは、このような「レストラン」、「娯楽」としてあらかじめ定義されたカテゴリが与えられた場合にはどのようになど、これを行うだろう

手動でその上で分類器を訓練そして、それらの束をラベル付けしたいとF1 /交差検証などの通常の機械でどれくらいうまく動作するかを確認してください。クラスタリングアルゴリズムがこれらのカテゴリをうまく取り上げているかどうかを確認しますが、まだラベル付きデータが必要です。

関連する問題