2012-03-04 6 views
7

私は大きな(100-150)個の小さな(約1kbyte)データセットを持っています。 これらを「良い」データセットと呼びます。 私も同様の数の「悪い」データセットを持っています。多数の小さなデータセットを使用した関連付けのマイニング

今、私は「良い」データセットと「悪い」データセットを構成するルールを見つけるためのソフトウェア(またはアルゴリズム)を探しています。

ここで重要なのは、1つの大きなデータセットではなく複数のデータセットを処理するソフトウェアの能力です。

大変助けになりました。
Paul。

+0

データセットとは何ですか?テキスト? – amit

+1

関連ルールマイニングの代わりに*分類*をしたくないのは確かですか? –

答えて

1

一般的な方法の1つはk-nearest neighborです。

たとえば、データセットがテキストの場合、フィールドを抽出する一般的な方法はbag of wordsです。

"トレーニングセット"を保存し、新しいデータセット[ラベリングされていない]が到着したら、[抽出されたフィールドに従って] k個の最も近いビーバーを見つけます。それの最も近いk個の似たような新しいデータセットを学習することができます。

もう1つの一般的な方法は、decision treeです。意思決定木の問題は、意思決定をあまりにも具体化しません。良い[ヒューリスティック]ツリーを作成するために使用できる既存のアルゴリズムは、ID3

+1

基本的には、SVM、ANN、kNN、意思決定ツリー、素朴なベイなど、その問題の分類方法を適用することができます。 – alfa

2

分類問題のようです。 「良い」または「悪い」とラベル付けされたデータセットが多数ある場合は、新しいデータセットが良いか悪いかを予測するために分類子を訓練することができます。

ディシジョンツリー、k-最近隣、SVM、ニューラルネットワークなどのアルゴリズムは、使用する可能性のあるツールです。

ただし、クラシファイアをトレーニングするために使用する属性を決定する必要があります。

関連する問題