データセット全体(例えば、ICDAR 2015やCamVidの人物)の一部を占めるにすぎないオブジェクトを分割したい。ピクセルレベルでの正と負のサンプルの比は約1:200です。データが不均衡なバイナリクラスのセマンティックセグメンテーションの損失が収束しない
私のネットワークは、訓練されたVGG16またはResNet50のバックボーンであり、CamVidデータセットでは12クラスでうまくいく可能性があります。しかし、このネットワークをCamVidの人だけに分割するように微調整すると、損失は0.31くらいのままで、まったく小さな学習率(1e-5など)でも決して減少しません。さらに、画像内のテキスト領域を取得するために別のデータセット(ICDAR 2015)で新しいモデルを訓練するとき、同じ問題が発生しました。
私はpytorchでモデルを構築しました。私が使用した損失関数はWeighted Cross-Entropy Lossです。
問題がどこにあるか教えてください。それは損失関数についてですか?なぜなら、モデルアーキテクチャには問題はないと思うからです。何か提案があれば本当に感謝しています。
この現象の詳細な分析は、[密集物体検出のための焦点損失、(2017)](https://arxiv.org/abs/1708.02002)の論文で見つけることができます。 – Shai
@Shai私はそれを見て、Thx〜 –