1

私はいくつかのビジネス基準に基づいて手作業で分類(承認/却下)された一連の画像(〜3000)を持っています。 Google Cloud Platformでこれらの画像を処理しました。注釈やセーフサーチの結果(例:CSV形式):注釈付き画像の分類

ファイル名:承認/拒否;大人;偽装;医療;暴力;拒否され; VERY_UNLIKELY; VERY_UNLIKELY; VERY_UNLIKELY;そう; 0.8 B.jpg | 0.9、車両|ボート、注釈 A.jpgは、VERY_UNLIKELY; VERY_UNLIKELY; VERY_UNLIKELY;そうを承認したテキスト| 0.9、フォントを| 0.8

I新しい画像を承認するか拒否するかを予測できるように機械学習を使用したい(csvファイルの2番目の列)。

どのアルゴリズムを使用しますか?

データ、特に注釈列をどのようにフォーマットする必要がありますか?最初に利用可能な注釈の種類をすべて取得し、数値(0が適用されない場合)を持つ機能として使用する必要がありますか?または、注釈列をテキストとして処理する方がよいでしょうか?

答えて

1

畳み込みニューラルネットワークを試してみることをお勧めします。

あなたのアイデアを動作させるかどうかをテストする最速の方法は、Tensorflowで転送学習を使用することです(問題はあなたが持っているイメージの数になる可能性があります)。 Magnus Erik Hvass Pedersenが作成した偉大なチュートリアルは、youtubeに掲載されています。

あなたはすべてのビデオを見ることをお勧めしますが、重要なものは#7と#8です。

転送学習を使用すると、Googleで構築したモデルを使用して画像を分類できます。しかし、トランスファーラーニングでは、独自のラベルを使用して独自のデータを使用することができます。

このアプローチを使用すると、これが問題に適しているかどうかを確認できます。次に、畳み込みニューラルネットワークに潜入し、問題に最適なパイプラインを作成することができます。

+0

私は、移転の学習が最良の賭けであることに同意します。 [CNTK](https://github.com/Microsoft/CNTK/wiki/Build-your-own-image-classour-using-Transfer-Learning)と[TF-slim](https:///github.com/tensorflow/models/blob/master/slim/slim_walkthough.ipynb)。アレックス、訓練されたモデルを生の画像に適用したいと思っているので、訓練データにラベル(承認/拒否)以外の注釈を含めないことをお勧めします。 – mewahl