2009-05-14 9 views
2

私は物理的なものを記述する大きなデータセットを持っている場合、そのデータが表現すると思われるものにどのくらい適しているかを測定するにはどうすればよいでしょうか?データ品質を測定するための手法とプラクティスは何ですか?

例としては、12個のウィジェットを保管している箱があり、各ウィジェットの重さが1ポンドであることがわかります。データの品質が「チェック」で、13ポンドの重さがあることを確認してください。

もう1つの例は、ランプとそのランプを表す画像がある場合、ランプのように見えるはずです。おそらく、画像寸法は、ランプ寸法の同じ比率を有するべきである。

画像を除いて、私のデータは99%のテキスト(高さ、幅、色などを含む)です。

私は学校でAIを勉強しましたが、それ以外はほとんど行いませんでした。

標準的なAIテクニックは進んでいますか?もしそうなら、問題をアルゴリズムにどのようにマップするのですか? いくつかの言語は他の言語よりも簡単ですか?彼らはより良い図書館を持っていますか?

ありがとうございました。

答えて

0

これは厳しい答えです。たとえば、ランプを定義するものは何ですか?私はいくつかのクレイジーなランプの画像をGoogle画像にすることができます。あるいは、ランプ(http://dictionary.reference.com/dic?q=lamp)の定義を参照してください。ランプはどのようなものでなければならないかの物理的要件はありません。 AI問題の要点です。

データに関しては、widetBox()で12ウィジェット()の重さが13ポンド未満であることを確認するために、プロジェクトでユニットテストを設定することができます。それにかかわらず、そのようなことをテストできるようにするには、データを手元に置いておく必要があります。

ご質問に多少お答えしたいと思います。そのビットと私の答えは広いですが、うまくいけば少なくともあなたを良い方向に送るでしょう。

1

あなたの質問は幾分自由ですが、machine learningのフィールドに "classifier"と呼ばれるものが欲しいと聞こえます。

一般に、分類器は入力を取り、それを「分類」します。つまり、オブジェクトのカテゴリを決定します。多くの分類器はこの決定に確率を提供し、またいくつかはそれぞれに確率で複数のカテゴリを返すことさえあります。

分類器のいくつかの例は、bayes nets、ニューラルネット、決定リスト、およびdecision treesです。ベイズネットは、スパム分類によく使用されます。電子メールは、確率で「スパム」または「スパムではない」のいずれかに分類されます。

あなたの質問には、オブジェクトを「高品質」または「高品質ではない」として分類することをお勧めします。

最初に必要なのは、一連のトレーニングデータです。つまり、あなたはすでに正しい分類を知っているオブジェクトのセットです。これを得る一つの方法は、たくさんのオブジェクトを手で分類することです。一人の人が分類するオブジェクトが多すぎる場合は、Mechanical Turkにそれらを与えることができます。

トレーニングデータを取得したら、分類器を作成します。あなたはどの属性があなたの分類にとって重要であるかを理解する必要があります。おそらく、何がうまくいくかを見るためには、何らかの実験をする必要があります。その後、分類データをトレーニングデータから学習させます。

テストでよく使用されるアプローチの1つは、トレーニングデータを2つのセットに分割することです。サブセットの1つを使用してクラシファイアをトレーニングし、他の(通常はより小さい)サブセットをどれくらいよく分類するかを確認します。

1

AIは1つの経路であり、自然知性は別のものです。

あなたの挑戦は、Amazonのメカニカル・タークと完璧にマッチします。あなたのデータスペースを非常に小さい実証可能な原子に分割し、それらをMechanical TurkのHITとして割り当てます。いくつか重複してHITの回答の一貫性を感じてください。

類似してグループ化する必要のある部品CAD図面のボートがあるショップがありました。彼らはそれを壊して機械的なトルコ人に非常に満足のいく結果をもたらした。私は何時間もグーグルで、そのリンクをもう一度見つけることはできません。

hereを参照してください。

関連する問題