直感的には、ほぼすべてのオブジェクトの異なる角度から数十程度の2次元画像が与えられた場合、そのオブジェクトの3D表現を構築するのは簡単であるように見えます。続いて、このようにして得られた3D表現のライブラリを用いて、新しい2D画像を識別することができる。オブジェクトの表記と認識を困難にする要因は何ですか?
これらの行にはどのような文献がありますか。なぜそれがまだ強いオブジェクト認識を生成していないのですか?
直感的には、ほぼすべてのオブジェクトの異なる角度から数十程度の2次元画像が与えられた場合、そのオブジェクトの3D表現を構築するのは簡単であるように見えます。続いて、このようにして得られた3D表現のライブラリを用いて、新しい2D画像を識別することができる。オブジェクトの表記と認識を困難にする要因は何ですか?
これらの行にはどのような文献がありますか。なぜそれがまだ強いオブジェクト認識を生成していないのですか?
何がやりたいことは確かに可能ですが、(かなりの数の言い訳がある)
:
これらはすべて解決できる問題ですので、あなたがしたと仮定し、3Dシェイプに一致させたいオブジェクトから新しい画像を取得しました。
もちろん、新しい画像に適した形状の2D投影を見つけることはできますが、そこには検索スペースが巨大です。最初の3D再構成のために作成したフィーチャ検索とマッチングシステムを使用して、新しい画像を既存のセットに直接一致させ、オブジェクトにそっくりそのままフィットする場所を見つけることは、おそらくもっと簡単で速くなります。
最初の3D再構成の問題を解決したら、2番目のステップは基本的に同様に行われます。
Photosynthは、この2つのステップの素晴らしい例です。サイトを閲覧し、そこにある参考文献のいくつかを見つけようとします。
あなたの最終ステップとして、強力なオブジェクト認識は、検索スペースを想像してみてください!あなたが認識したいオブジェクトを適切に表現することを除いて、強いオブジェクト認識に必要なものは、知っているオブジェクトの空間を検索する良い方法であり、新しいオブジェクトを表現する良い方法です。この場合)。これは私がほとんど何も知らないものです。
異なる2D画像で同じオブジェクトを一致させるには、SIFT featuresがあります。しかし、私はこれが3Dにうまくいくとは思わない。
"直感的に言えば"あなたの問題を引き起こしているのはあなたの言葉です。あなたの脳は、何千もの数字を瞬時に増やすなど、特定の仕事を非常によくするようには設計されていません。しかし生の計算力では、あなたの脳は最速のコンピュータを単なる厄介な瞬間(約10ミリ秒の神経応答時間のように見せますが、並行して働く10^14程度のニューロンはすべて現代のマシンに勝ちます)。その脳は、画像内のオブジェクトを認識したり、サウンドデータを解析したり、背景雑音の中で個々のスピーカーを選んだりするなど、計算上複雑な問題を解決するように設計されています。何万種類ものオブジェクトを分類して扱うことを学ぶ。
あなたの脳が本当にうまくいくように設計されている非常に計算上強烈なものは、人にとって「直感的」なものです。本当にうまくいくように設計されていないことは、「直感的ではない」、あるいは難しいようです。しかし、強いオブジェクトの認識には生の計算が必要です(多くのオブジェクトには実際にサブオブジェクトがあり、複数の分類、非剛体のフォーム、例えば "ズボン"、 "水"、 "犬"など)コンピュータのためだけに考えられるものを達成するために必要なもの以上のものです。毎日の問題を解決するために「常識」を使うようなものは、人にとっては同様に自明ではありませんが、計算上非常に複雑です。 3D再構成のための
ここで説明する内容は、インスタンスの認識です。コンピュータは、実際には、最近、インスタンス認識の良い仕事を行うことができます。たとえば、Googleゴーグルは、ゴールデンゲートブリッジやエッフェル塔などのランドマークを認識するのに非常に優れています。
しかし、コンピュータは、カテゴリ認識と分類を実行することであまり良くありません。すべてのタイプの照明条件ですべての可能性のあるオブジェクトに対して数十の2Dスナップショットを作成することは非常に迅速に難しくなります。犬のような特定のオブジェクトが移動できるという事実は、可能性の空間をさらに大きくする。コンピュータはこれではるかに悪化します。
また、生物学的観点から見ると、私たちの視野は約1億画素です。グラフィックスカードは、今や多くのデータをリアルタイムでレンダリングすることができるようになったばかりです。そのような多くのデータを理解することは、さらに計算集約的です。
5年前の情報処理能力にマシンが到達することについてよく言います。しかし、どれだけのデータがあるか考えてみましょう。 3つのカラーチャネルとピクセルあたり1バイトの1億画素= 300MB /秒。これを1秒間に30フレーム、1年に31,556,926秒、5年で掛け算すると、およそ1.4エクサバイト(1.4×10^18)になります。
これは役に立ちましたか? – delnan
これは役に立ちました...つまり、3Dシーンの再構成と3Dオブジェクトの再構成についての研究があり、2Dオブジェクトと3Dオブジェクトを一致させる方法があるようですより簡単な問題になります。何がありますか? –