2017-06-21 15 views
6

この質問はおそらく答えられましたが、これに対する簡単な答えは見つかりませんでした。シンプソンズの文字(dataset here)を分類するためにKerasを使ってコンビネットを作成しました。
私は20のクラスを持ち、入力としてイメージを与え、私は文字の名前を返します。それはかなり簡単です。私のデータセットには絵の中のメインキャラクターの写真が含まれていて、そのキャラクターの名前はラベルだけです。Kerasを使用したオブジェクト検出:より速いR-CNNまたはYOLOのための簡単な方法

ここで、オブジェクト検出を追加することをお勧めします。つまり、画像内の文字の周りに境界ボックスを描き、それがどの文字であるかを予測します。スライディングウィンドウを使用したくないのは、実際には遅いからです。そこで私はより高速のRCNN(github repo)またはYOLO(github repo)の使用について考えました。トレーニングセットの各写真に境界ボックスの座標を追加する必要がありますか?トレーニングセットの座標を指定せずにオブジェクト検出を行う方法(およびテストでバウンディングボックスを取得する方法)はありますか?

単純なオブジェクト検出モデルを作成したいと思いますが、単純なYOLOまたは高速RCNNを作成できるかどうかはわかりません。

ありがとうございました。

答えて

5

yolo以上のrcnnの目標は、境界ボックスを取得することです。要するに、はい、あなたはそれを訓練するためにデータにラベルを付ける必要があります。

は、ショートカットを取る:

  • 1)()文字あたり5を言うことができますのための境界ボックスの一握りにラベルを付けます。
  • 2)非常に小さいデータセットで、rcnnまたはyoloの処理を高速化します。
  • 3)完全なデータセットに対してモデルを実行してください
  • 4)それは間違っています。
  • 5)正しくバインドされているもので早いrcnnを訓練してください。 訓練セットはもっと大きくなるはずです。
  • 6)希望の結果が得られるまで繰り返します。
0

あなたはすでに、すでに心の中で適切なアーキテクチャを有することができる:「今、私はオブジェクト検出を追加したいと思いますが、絵の中の文字の周りにバウンディングボックスを描画し、それがどの文字を予測すなわち尋ねる。」

を人物検出が一部あなたがshに1に関してすでに

を訓練しconvnetを使用してバウンディングボックス
2.分類境界ボックスを返すようにするために
1.オブジェクト検出器を追加します。

は、だから、ちょうど2つの部分にタスクを分割しました人々を検出するための物体検出器(まだYOLOとFaster-RCNN)を備えた特徴検出器(例えば、COCOまたはImagenetに事前設定された砲弾)を使用することによって、うまく行くことができます。 しかし、漫画ベースの画像ではなく実際の画像で訓練されていないため、「漫画」の人々(シンプソンズが人であるとしよう)が正しく認識されないことがあります。その場合、transfer learning方法論に従って、漫画の機能を学ぶために、に漫画の画像の特徴検出器のいくつかの層をに再トライしようとすることができます。

関連する問題