2011-08-17 5 views
1

仮想的に歪みのない飲料缶の上から1枚の画像を表示することができます。分類を指定できます(例:&飲み物の名前)。セグメンテーションは必要ありません。分類機能への入力は、その辺のいずれかからの缶の1つのビューである。データセットは大きく、飲料の種類が2000種類前後でなければなりません。缶はすべて同じサイズです。訓練のために、各缶は、ほぼ任意の角度を含むように数百回回転される。大きなデータセットから遮蔽されたテクスチャパッチを特定する

これに最も効果的なアプローチは何ですか?私にとっては、オブジェクトそのものの形状が関係ないテクスチャ認識の問題のように思えます。分類も速くなければならないので、テンプレートマッチングは除外されます。誰かが私のために正しい方向を指し示すことができれば、それは大きな前進になるだろう。私が思いついたアイデアは、実際にその仕事に合っていないようです。ローカル機能(SIFT/SURF)など?あまりにも一般的です。ブランドは、彼らが作り出すさまざまな飲み物に同じロゴを付けることができます。神経ネット?彼らはすべて同じラベルにマッピングされている場合、缶は、異なる側で非常に異なって見ることができます。言葉の袋? SVMをトレーニングするためのHOG /カラーヒストグラムなど私がおそらく知らないことを知らない全く違う何か?

+0

何とかあなたの質問に関連して:http://stackoverflow.com/questions/6832257/sift-is-not-finding-any-features-in-reference-image-in-opencv – karlphillip

答えて

0

良いアプローチは、缶の形状をモデル化することです。そのため、缶のテクスチャとラベルを平面矩形にマッピングできます。これにより、低解像度バージョンやガウスピラミッドベースのテンプレートマッチングを使用してテンプレートマッチングを行い、高速マッチングを行うことができます。

第2の選択肢は、この「平坦化された」画像のSIFTまたはSURFキーポイントを抽出し、トレーニングセット内の対応するポイントを見つけることです。複数の異なる缶に同じロゴやテキストが表示されることもありますが、キーポイントの位置を使用して缶を区別することができます。

関連する問題