2

私はニューラルネットワークを探究していて、個々の画像に特定のものをラベル付けする方法で自分の画像であってもネットワークをうまく育てることができましたが、その訓練されたネットワークを使って、 1つの画像から複数のオブジェクト。たとえば、猫と犬を訓練し、1つの画像に複数の猫と犬がある場合、訓練されたネットワークを適用してその位置を(画像内に)どのように戻しますか?ここで訓練されたニューラルネットを使用して、画像内の複数のオブジェクトを識別するにはどうすればよいですか?

は、私はPythonで実装に続く主なチュートリアルです:http://machinelearningmastery.com/object-recognition-convolutional-neural-networks-keras-deep-learning-library/

一般的な答えは十分であろう、のように、このための最善の解決策画像の上にスライディングウィンドウであるかが容易なものはありますか?

特定の例(特にPythonで)は高く評価されます。 私はmatropotlibを画像作業の大部分に使用していましたので、私はPILスライスから遠ざかりたいと思っています。

ありがとうございます!あなたが使用したいと

答えて

2

既存の訓練を受けたN/W:

  1. ブルートスライディングウィンドウ:あなたはサイズがわからない場合は、多くの窓(画像サイズに基づいてピクセルずつスライド)を処理する必要があります画像内のオブジェクトの位置を決定することができ、各ウインドウは異なる結果を生成することがあり、それらのうちの1つまたはいくつかが最終的に要求される結果である可能性がある。実際に必要とされる結果を多くの人々の間で特定することは困難です。
  2. 前処理:画像をネットワークに送る前に前処理することができます。例えば、猿と蛇で画像を撮り、画像のエネルギー(Sobel et.al)を計算する。画像内の猿のフットプリントは丸い風船(より多くの領域)に似ていて、蛇は糸状(少ない領域)になります。これに基づいて画像をその特定のセクションに切り抜き、n/wに送ります。他の前処理テクニックについて考えることができます。

他のn/wが開いている場合は、CRFをリカレントニューラルネットワークとして参照してください。例:https://github.com/torrvision/crfasrnn

これが役立ちます。

+0

ありがとうございましたNKU - 私は前にスライドルールについて読んでいましたが、複雑さと処理要件は非現実的です。私は計算時間を制限するために他の前処理テクニックを見ていきます。 – Beutler

関連する問題