-2

私はコンピュータビジョンに新しいですが、私は次のことを行いアンドロイド/ iOSアプリをコーディングしようとしています:Tensorflow Object Detection APIをフラットイメージレコグナイザとして使用する最も速い方法は何ですか?

ライブカメラのプレビューを入手し、その中で1枚のフラットの画像(ロゴや絵)を検出してみてください。リアルタイムで。見つかった場合は、ロゴの周囲に四角形を描きます。一致がない場合は、四角形を描画しないでください。

私は、Tensorflow Object Detection APIを良い出発点として見つけました。 TensorFlowモデルをCore MLにインポートするためのサポートが発表されました。

私は自分のオブジェクト検出器を訓練するために多くのチュートリアルを続けました。トレーニングデータが鍵です。私はgenerate augmented imageにかなり良いライブラリを見つけました。私は自分のイメージソース(回転、スキューなど)の何百ものバリエーションを作成しました。 しかし、それは失敗しました!このデータセットは、画像分類(画像をフルスクリーンで表示)に適していますが、コンテキスト(ルーム)では表示されません。

私は転送学習が鍵だと思っています。私の場合は、ssd_mobilenet_v1_cocoモデルをベースとして使用しました。私はRandom Erasing Data Augmentation techniqueで私の拡張されたイメージの文脈を偽造しようとしましたが、成功しませんでした。

利用可能なソリューションは何ですか?問題に正しく取り組んでいますか?私はできるだけ速くモデルトレーニングをする必要があります。

屋内外の画像分類にいくつかのデータセットを使用し、上に画像をランダムに配置する必要がありますか?どのように視点は重要ですか?

ありがとうございました!

答えて

0
I have created hundreds of variation of my image source (rotation, skew etc ...). But it has failed! 

だからそれが意味する、あなたのモデルが収束しなかったか、最終的な性能は悪かったですか?モデルが収束していない場合は、データを追加してください。 「数百のサンプル」はごくわずかです。したがって、より多くの画像を使用して、より多くのサンプルを作成し、可能な限りサンプルを分散させます。

I think transfer-learning is the key, In my case, I used the ssd_mobilenet_v1_coco model as a base. I tried to fake the context of my augmented image with the Random Erasing Data Augmentation technique without success. 

微調整を意味します。ラベルを2(イメージと背景)に減らし、微調整しましたか?あなたがしなかったなら、あなたは確かに失敗しました。ああ、少なくともあなたのモデル定義を私に見せてください。

What are my available solutions? Do I tackle the problem rightly? I need to make the model training as fast as possible. 

は、訓練がより速く収束させるちょうどより多くのGPUを追加し、複数のGPU上で訓練します。お金がない場合は、AzureでGPUクラスターを借りてください。私を信じて、それは高価ではありません。

希望のあるヘルプ

関連する問題