実験的なニューラルネットワークを構築しました。これは、JPEG画像を見て、画像のどの部分が楽譜であるかを識別できるという考え方です。ニューラルネットワークと画像の分類
ネットワークを訓練するために、私は1.0で評価される(表記を含む)か0.0(表記が含まれない)のいずれかを取ることができる100 x 100箱にカットされたページのさまざまなイメージを使用しました。
ネットワークのトレーニングでは、多かれ少なかれ、毎回0.5の結果を出すように修正されているようです(0.25の二乗誤差を与えます)。シグモイド(ロジスティック)関数は、アクティブ化に使用されます。
ネットワークには10,000個の入力ニューロン(100 x 100画像の各ピクセル)、2000個の隠れニューロン(各入力は「行」と「列」隠れニューロンの両方に接続されています)があります。
出力ニューロンが1つあります。
出力ニューロンが2つの方が良い結果が得られますか? (すなわち、 '音楽は活性化するものであり、'音楽は活性化しないもの ')。
(あなたがここでは、このためのC++のソースを見ることができます:。https://github.com/mcmenaminadrian/musonet - 任意の時点で、公共のレポにあるもののに私はマシン上で使用しています正確に何ではないかもしれない)
aargh - コードのマイナス記号が欠落している可能性があります。つまり、出力レイヤーの誤った修正によって隠れたレイヤーの修正が行われていたことを意味します。ただ今これをチェックしてください。 – adrianmcmenamin
私はその話題についてはまったく分かりませんが、出力ニューロンは1つだけです。その出力が特定の閾値を下回っている場合は「音楽」を含み、それが別の閾値を上回る場合は「音楽」ではありません。 – Professor901