2016-04-03 7 views
1

正規分布を持つデータでネットワークを訓練する必要があります。神経ネットワークがエクスポートしたCSVファイルで最も発生しているクラスラベルのみを予測する傾向が非常に高いことに気付きました。実際のラベル)。私の訓練データ分布の巨大な負の効果を後続の神経回路網分類機能に取り消すには?

ニューラルネットワークが行かず、最も発生しているラベルのみを予測するのに役立ついくつかの提案(データを除いて、均等に分散したトレーニングデータを作成することを除く)は何ですか?

更新:実際には、コメントセクションで行われた提案がうまくいっていることを言いたいと思います。しかし、私はNNに余分なレイヤーを追加することで問題が緩和されることがわかりました。

+0

独自のNNコードまたは外部パッケージを使用していますか? –

+0

自分のNNコードを使用しています。それは約1000のノード入力、100のノード隠れ層、および10のノード出力層を有する。それはシグモイドNNです。 –

+0

(1)トレーニングデータクラスの分布とは何ですか?特に、最も頻繁なクラスはどのくらい頻繁にありますか? (2)均等に分散したトレーニングセットで訓練をする場合、この問題は軽減されますか? –

答えて

0

NNがミニバッチを使用してトレーニングされていると仮定すると、各ミニバッチが均等に分散されていることを確認することによって、均等に分散されたトレーニングデータをシミュレートすることができます。

たとえば、3クラスの分類問題とミニバッファサイズ= 30と仮定すると、クラスごとに10サンプルをランダムに選択することによって各ミニバッチを構成します(必要に応じて繰り返します)。

関連する問題