私はコンピュータビジョンに新しいですが、私は次のことを行いアンドロイド/ iOSアプリをコーディングしようとしています:Tensorflow Object Detection APIをフラットイメージレコグナイザとして使用する最も速い方法は何ですか?
ライブカメラのプレビューを入手し、その中で1枚のフラットの画像(ロゴや絵)を検出してみてください。リアルタイムで。見つかった場合は、ロゴの周囲に四角形を描きます。一致がない場合は、四角形を描画しないでください。
私は、Tensorflow Object Detection APIを良い出発点として見つけました。 TensorFlowモデルをCore MLにインポートするためのサポートが発表されました。
私は自分のオブジェクト検出器を訓練するために多くのチュートリアルを続けました。トレーニングデータが鍵です。私はgenerate augmented imageにかなり良いライブラリを見つけました。私は自分のイメージソース(回転、スキューなど)の何百ものバリエーションを作成しました。 しかし、それは失敗しました!このデータセットは、画像分類(画像をフルスクリーンで表示)に適していますが、コンテキスト(ルーム)では表示されません。
私は転送学習が鍵だと思っています。私の場合は、ssd_mobilenet_v1_cocoモデルをベースとして使用しました。私はRandom Erasing Data Augmentation techniqueで私の拡張されたイメージの文脈を偽造しようとしましたが、成功しませんでした。
利用可能なソリューションは何ですか?問題に正しく取り組んでいますか?私はできるだけ速くモデルトレーニングをする必要があります。
屋内外の画像分類にいくつかのデータセットを使用し、上に画像をランダムに配置する必要がありますか?どのように視点は重要ですか?
ありがとうございました!