私は分類問題をどうやって解決するかを理解しています。私は出力の位置を与えるためにネットワークを設定する方法について少し混乱しています。どのように神経網が位置を与えるように?
顔があるデータセットの鼻の終点位置があるとします。エンドポイントを見つけるには、出力レイヤーが64x64 = 4096ポイントのようなものであれば、「分類」タイプの問題だけですが、ノーズがグリッドのポイント行43とカラム20にある場合は、出力をすべてゼロ要素43 * 64 + 20 = 2772の場合、1に設定します。次に、それをイメージの次元に戻します。
この部分がどのように動作するかについての情報はほとんど見つかりません。私はこの方法論で2番目のプロジェクトに取り組んでいますが、それは多くの仕事になるでしょうし、少なくとも正しい方向にいるかどうかを知りたいと思っています。これは解決された問題だと思われますが、私は人々がこれをどうやって行うのか分かりません。
私の執筆論文は、回帰分析に基づいた方法論を使っていることを示しているようです。本質的には、ニューラルネットワークを用いて位置を計算し、非線形効果の計算に畳み込みネットを使用します。 私は顔のランドマーク認識を試みようとしていました。そのエリアでは、ニューラルネットワークだけで良い結果が得られ、カスケード分類子をやや微妙にしています。私は間違いなくカスケード分類器を見ていますが、2段階の攻撃をそれらと神経網で使用することを考えています。 – user2927848
私の経験では2段階のアプローチがうまくいきます。基本的には、まずカスケード分類器を使用してターゲットフィーチャの可能な場所を特定し、より高価なニューラルネット推論を使用して、その特定された場所の1つに信頼を置いています。そして、一般に、ニューラルネットでは、畳み込みレイヤーはあまり手作業による前処理なしで画像から重要な特徴を抽出する便利な方法を提供するので、CNNを使用します。 – Aenimated1
カスケード分類子に関する私の1つの問題は、opencvのものが非常に厄介なように見えることです。回転的に変形していないものや、複数の角度から作業するものを訓練することは可能ですか?または、複数の角度で複数の分類器を使用して複数のパスを実行して、顔を確実に捕捉する必要がありますか? – user2927848