1

私は数ヶ月間機械学習を手がけてきました。私はcaffeとdarknetを使い、今はtheanoから始めるでしょう。機械学習には2つの主要なタスクがあります:1.検出と2.分類。ほとんどの分類ネットワークがどのように作成され、設計されているか理解していますが、画像を検出するためのニューラルネットの構築に必要な基本ステップは何かを明確に把握することはできません。分類では、適切な最大プール、reluおよびconvレイヤーを使用して、より良い結果を得てネットワークを微調整します。オブジェクト検出のためのニューラルネットワークを作りながら、心に留めておく必要がある重要なことは何ですか?オブジェクト検出のためのニューラルネットを構築する上で最も重要なステップは何ですか? (分類されていない)

答えて

1

一般に、「検出」と呼ばれるものは、通常、回帰タスク(したがって、「回帰のための神経ネットワーク」)によって解決されます。たとえば、画像上の鼻の先端を認識したいとします。

X(入力) - サイズが256x256ピクセルのグレースケールの画像 Y(出力) - X、Y座標を示す数字のペアです。この画像上の鼻の先端の位置。

次に、この問題に関する回帰タスクを解決するためのDNNを構築しました。このNNには、分類と同じ原理が適用される。 max-poolingレイヤー、畳み込みレイヤー、ReLUを自由に使うことができます。あなたは、あなたの出力層が必要な範囲内の数字を出力できることが必要であることを心に留めておく必要があります。

のANNでこのタスクを解決するための優れたチュートリアルがhere

P.S.ですオブジェクトが存在する場所を検出したいとします(イメージの色付きボックスに囲みます)?問題はありませんが、オブジェクトの左上、右上、左下、右下の位置を特定する回帰タスクを解決する方法があります。また、必要に応じてスライディングウィンドウを使用することもできます。

関連する問題