この質問はおそらく答えられましたが、これに対する簡単な答えは見つかりませんでした。シンプソンズの文字(dataset here)を分類するためにKerasを使ってコンビネットを作成しました。
私は20のクラスを持ち、入力としてイメージを与え、私は文字の名前を返します。それはかなり簡単です。私のデータセットには絵の中のメインキャラクターの写真が含まれていて、そのキャラクターの名前はラベルだけです。Kerasを使用したオブジェクト検出:より速いR-CNNまたはYOLOのための簡単な方法
ここで、オブジェクト検出を追加することをお勧めします。つまり、画像内の文字の周りに境界ボックスを描き、それがどの文字であるかを予測します。スライディングウィンドウを使用したくないのは、実際には遅いからです。そこで私はより高速のRCNN(github repo)またはYOLO(github repo)の使用について考えました。トレーニングセットの各写真に境界ボックスの座標を追加する必要がありますか?トレーニングセットの座標を指定せずにオブジェクト検出を行う方法(およびテストでバウンディングボックスを取得する方法)はありますか?
単純なオブジェクト検出モデルを作成したいと思いますが、単純なYOLOまたは高速RCNNを作成できるかどうかはわかりません。
ありがとうございました。