2009-06-05 2 views
3

私は約10個のオブジェクトのセットを持っています。それぞれ約150個の別個のプロパティがあり、そのうちの約4分の1は多値および/または他のプロパティと関連しています。オブジェクトをそのプロパティに基づいて分類するアプローチを探しています

私はこれらのオブジェクトを「テンプレート」オブジェクトとして定義された状態で並べ替えるために、約120種類のカテゴリを用意しています。インスタンスがテンプレートと正確に一致する場合、そのオブジェクトは明らかにそのカテゴリ内にあります...しかし、オブジェクトの約10%だけが実際に完全一致のテンプレートを持っています。結果として、私はカテゴリーとの類似性に基づいてオブジェクトにスコアを付け、それらを最もよくマッチさせたいと思っています。また、非常に似ているオブジェクトのクラスターを特定し、新しい/洗練されたカテゴリーの可能性を示したいと思います。

これは、Weka、RapidMiner、または他の機械学習/クラスタリング/分類システムの仕事のようです。しかし、私はこのドメインに優れた紹介資料を見つけるのが難しく、その結果、これらのツールを使用するためにどれだけの労力がかかるか分かりません。これは継続的な必要性があることを考えると、分析方法や重量などを簡単に変更できるものを使用したいと考えています。

思考?

答えて

1

Lets talk ..
これらのオブジェクトをカタログ化するのが任務であれば、手作業で怒らせることができます。

私は同様のデータセットを解剖していますが、いつも同じポイントに戻ります。これらのオブジェクトは〜基本的に同じです。

それらを分けるファジーロジックは聖杯ですが、聖杯はあふれています。:(
あなたは何をすることができますか...あなたの上司にいくつかのあいまいな公式を与えますか?それはしばらく続くでしょう。

パターンを見つけるために生涯を費やすことができますが、それはあなたに何かをもたらしてくれるかもしれません - 定量化できるものに視点を移してみてはいかがでしょうか...出力に集中してください。

0

RapidMinerはオンラインチュートリアルが付属しています。 「Help」と「RapidMiner Tutorial」に移動し、Rapid-I Webページから無料のPDF RapidMinerチュートリアルをダウンロードすることもできます。Rapid-I WebページにはRapidMinerの無料の小さな紹介ビデオがあります。 Rapid-IのWebページのサービスセクションをチェックすると、多くのRapidMinerトレーニングコースが開かれます。

0

あなたが開発したいのは、ケースベースの推論システムで、知識エンジニアリングエンジンの一種です。

myCBRとProtegeを調べます。 ProtegeはStanfordのオントロジエンジニアリングエンジンで、myCBRはThomas R. Roth-Berghoferによって開発されたケースベースの推論システムです。

MyCBRをProtegeに接続すると、これはあなたがしたいこととまったく同じです。

重要ビット: - 門徒/ myCBRはそれで問題がありますよりも、それは完璧ではない場合

  1. は、CSV形式でデータを保管し、それがきしむクリーンであることを確認してください。
  2. 何かをインポートしようとする前にmyCBRの指示を読んでください。そうしないと、欲求不満を募るからです。
  3. データをエクスポートするのは難しいですが、結果を理論的にJavaモジュールとしてエクスポートできます。 Protegeはオープンソースであり、myCBRもそうです。ライセンス料はないと思います。
  4. あなたのカテゴリの重みを設定することができます。

門徒:

http://protege.stanford.edu/

myCBR:

http://mycbr-project.net/