0

私は真っ直ぐなpythonでニューラルネットワークを書くのに苦労してきました。私はそれがMNIST画像を認識するようにしています。Pythonのニューラルネットワーク - 重み行列の形状とバックプロップに問題がある

私は体重を初期化するときに何か間違っていなければならないと思います。

MNISTデータは形状28x28のデータであるため、最初のセットではウェイトがシェイプ(28、何か)でなければならず、ウェイトの最後のセットは(X、1) Xはデータセット内のクラスの数である。

私が混乱していることの1つは、終了行列(下の変数l5)に形状(28,1)があることです。 出力を(9、1)の形にするために必要なことは何ですか?私は図形を印刷してきたとしたNNと線形代数の私の理解のギャップを実現しています

l5 shape: (28, 1) 
l4 shape: (28, 9) 
l3 shape: (28, 14) 
l2 shape: (28, 21) 
l1 shape: (28, 28) 

私は理論的にSVM(サポートベクターマシン)と複数形の(平坦化)画像を行うことができると思います(784、9)の行列で(784、1)、しかし、これを行う唯一の方法であるかどうかは分かりません。実際には、私が得たものとはまったく離れています。

このチュートリアルのオフに基づいて以下のコード:http://iamtrask.github.io/2015/07/12/basic-python-network/

syn0 = np.random.random((28, 28)) 
    syn1 = np.random.random((28, 21)) 
    syn2 = np.random.random((21, 14)) 
    syn3 = np.random.random((14, 9)) 
    syn4 = np.random.random((9, 1)) 
    images, labels = mndata.load_training() 
    print(len(images)) 
    for index, image in enumerate(images): 
     X = np.array(image).reshape((28, 28)) 
     print(X)   
     y = np.zeros((9)) # getImageCategory(fileName) 
     y[labels[index]] = 1 

     print(y) 

     l0 = X 
     l1 = sigmoid(np.dot(l0, syn0)) # + bias? 
     l2 = sigmoid(np.dot(l1, syn1)) # + bias? 
     l3 = sigmoid(np.dot(l2, syn2)) # + bias? 
     l4 = sigmoid(np.dot(l3, syn3)) # + bias? 
     l5 = sigmoid(np.dot(l4, syn4)) # + bias? 

     print("l5 shape: " + str(l5.shape)) 
     print("l4 shape: " + str(l4.shape)) 
     print("l3 shape: " + str(l3.shape)) 
     print("l2 shape: " + str(l2.shape)) 
     print("l1 shape: " + str(l1.shape)) 
     print("Y shape: " + str(y.shape)) 

     l5_error = y - l5 

     if index % 10 == 0: 
      print("Error: " + str(np.mean(np.abs(l5_error)))) # +" | Prediction: " + str(l5)) 

     l5_delta = l5_error * sigmoid(l5, True) # True = derivative of sigmoid 

     l4_error = l5_delta.dot(syn4.T) 
     l4_delta = l4_error * sigmoid(l4, True) # True = derivative of sigmoid 

     l3_error = l4_delta.dot(syn3.T) 
     l3_delta = l3_error * sigmoid(l3, True) # True = derivative of sigmoid 

     l2_error = l3_delta.dot(syn2.T) 
     l2_delta = l2_error * sigmoid(l2, True) # True = derivative of sigmoid 

     l1_error = l2_delta.dot(syn1.T) 
     l1_delta = l1_error * sigmoid(l1, True) # True = derivative of sigmoid 

#    print("layer_4_delta shape: " + str(l4_delta.shape)) 
#    print("layer_3_delta shape: " + str(l3_delta.shape)) 
#    print("layer_2_delta shape: " + str(l2_delta.shape)) 
#    print("layer_1_delta shape: " + str(l1_delta.shape)) 

#    print("L1 Error" + str(layer_1_delta) + " | L2 Error: " + str(layer_2_delta) + " | L3 Error: " + str(layer_3_delta) + " | L4 Error: " + str(layer_4_delta)) 
     # update weights 
     syn4 += l4.T.dot(l5_delta) 
     syn3 += l3.T.dot(l4_delta) 
     syn2 += l2.T.dot(l3_delta) 
     syn1 += l1.T.dot(l2_delta) 
     syn0 += l0.T.dot(l1_delta)    

また、Iは、バックプロパゲーションは、出力の勾配を求めるトレーニング機能に応じて誤差を最小にする重みを更新していることを理解(これは私が今考えているところでは見逃しているかもしれませんか?)。 ウェイトを更新してレイヤーエラーを計算するときに、レイヤーをトランスポーズしなければならない理由を理解できません。私は取得しています

現在の誤差は以下の通りですが、私は自分のコード

Traceback (most recent call last): 
    File "C:\Users\Username\Development\Python\updatedKernel.py", line 128, in <module> 
    main() 
    File "C:\Users\Username\Development\Python\updatedKernel.py", line 104, in main 
    l4_error = l5_delta.dot(syn4.T) 
ValueError: shapes (28,9) and (1,9) not aligned: 9 (dim 1) != 1 (dim 0) 

答えて

1

通常

と間違って他のものは、あなたの入力(MNISTデータ)の形状があると確信していますinput_dimensions = 784 = 28 *重みの最初のセットの28

形状はinput_dimensions = 784 = 28 * 28、(input_dimensions、hidden_​​dimension)である場合(nb_samples_in_bacth、input_dimensions)は、hidden_​​dimensionがユーザによって設定されている(一般的でなければなりません〜であなたのinput_dimensionと同じ大きさのオーダー)。

2番目の重みの形状は(hidden_​​dimension、nb_classes)、nb_class = 10です(MNISTの10桁の値)。

最終出力の形状は(nb_samples_in_batch、nb_classes)

+0

です。ありがとう、私はこれが役立つと思います。だから、配列の形のバッチサイズを含む必要がありますか?イメージを784に「平坦化」するのではなく、まだ(nb_samples_in_batch、image_height、image_width)を実行できますか?私はある時点で畳み込みを行うことを計画しているので、私は尋ねます。データが平坦化されていれば、あなたはできません。 –

+0

あなたがそれを平らにするべきではない畳み込みをしているならば。あなたが正しいです。 – snowflake

関連する問題