-1

データセット全体(例えば、ICDAR 2015やCamVidの人物)の一部を占めるにすぎないオブジェクトを分割したい。ピクセルレベルでの正と負のサンプルの比は約1:200です。データが不均衡なバイナリクラスのセマンティックセグメンテーションの損失が収束しない

私のネットワークは、訓練されたVGG16またはResNet50のバックボーンであり、CamVidデータセットでは12クラスでうまくいく可能性があります。しかし、このネットワークをCamVidの人だけに分割するように微調整すると、損失は0.31くらいのままで、まったく小さな学習率(1e-5など)でも決して減少しません。さらに、画像内のテキスト領域を取得するために別のデータセット(ICDAR 2015)で新しいモデルを訓練するとき、同じ問題が発生しました。

私はpytorchでモデルを構築しました。私が使用した損失関数はWeighted Cross-Entropy Lossです。

問題がどこにあるか教えてください。それは損失関数についてですか?なぜなら、モデルアーキテクチャには問題はないと思うからです。何か提案があれば本当に感謝しています。

+0

この現象の詳細な分析は、[密集物体検出のための焦点損失、(2017)](https://arxiv.org/abs/1708.02002)の論文で見つけることができます。 – Shai

+0

@Shai私はそれを見て、Thx〜 –

答えて

0

CamVidデータセットの場合、人のクラスはネットワークでセグメント化するのが難しいです。 ICDAR 2015では、私の処理(ランダム作付けなど)に問題があると思います。結局、データセットは本当に重要であり、我々はそれにもっと注意を払うべきです。

関連する問題