1

畳み込みニューラルネットワークをゼロから実装しようとしていますが、rgbのようなマルチチャネル画像(ベクトル化された)を3つの方法で実行する方法を理解できません。寸法。 this CS231n tutorialのような記事やチュートリアルでは、入力レイヤーが3Dマトリックスになるため、単一の入力用のネットワークを実装するのはかなり明確ですが、データセットには常に複数のデータポイントがあります。だから、私はどのように全体のデータセットにベクトル化された操作のためにこれらのネットワークを実装するかを理解することができません。マルチチャネル画像データセットでトレーニング畳み込みネット

私は入力として3次元行列を取るネットワークを実装しましたが、今ではデータセット全体では機能しませんが、1度に1つの入力を伝播する必要があることを認識しました。データセット全体でベクトル化されているかどうかはわかりませんが、そうであれば、どのようにしてマルチチャネル画像に対して畳み込みネットワークをベクトル化できますか?

+0

これにはライブラリを使用していますか?一般的なチャンネルでは、CNNが非常に扱いやすいものです。 –

+0

@JonasAdler私は線形代数を処理するためにC++にarmadilloライブラリを使用しています。具体的には、私は2Dと3Dの行列それぞれに対して行列とキューブのデータ構造を使用します。 –

答えて

1

私はあなたの質問が正しい場合、基本的に4Dテンソルになるミニバッチの畳み込みレイヤーを行う方法を尋ねています。

簡単に言えば、入力を一括して処理し、それぞれに畳み込みを適用するとします。ループを使用してベクトル化せずにコード化するのはかなり簡単です。

ベクトル化の実装は、多くの場合、im2col techniqueに基づいており、基本的に4-D入力テンソルを巨大行列に変換し、行列乗算を実行します。ここではPythonでnumpy.lib.stride_tricksを使用して往路の実装があります:それはnumpyに実装されている線形代数ライブラリ、いくつかの非自明な機能を使用していますが、あなたのライブラリにないかもしれ

import numpy as np 

def conv_forward(x, w, b, stride, pad): 
    N, C, H, W = x.shape 
    F, _, HH, WW = w.shape 

    # Check dimensions 
    assert (W + 2 * pad - WW) % stride == 0, 'width does not work' 
    assert (H + 2 * pad - HH) % stride == 0, 'height does not work' 

    # Pad the input 
    p = pad 
    x_padded = np.pad(x, ((0, 0), (0, 0), (p, p), (p, p)), mode='constant') 

    # Figure out output dimensions 
    H += 2 * pad 
    W += 2 * pad 
    out_h = (H - HH)/stride + 1 
    out_w = (W - WW)/stride + 1 

    # Perform an im2col operation by picking clever strides 
    shape = (C, HH, WW, N, out_h, out_w) 
    strides = (H * W, W, 1, C * H * W, stride * W, stride) 
    strides = x.itemsize * np.array(strides) 
    x_stride = np.lib.stride_tricks.as_strided(x_padded, 
              shape=shape, strides=strides) 
    x_cols = np.ascontiguousarray(x_stride) 
    x_cols.shape = (C * HH * WW, N * out_h * out_w) 

    # Now all our convolutions are a big matrix multiply 
    res = w.reshape(F, -1).dot(x_cols) + b.reshape(-1, 1) 

    # Reshape the output 
    res.shape = (F, N, out_h, out_w) 
    out = res.transpose(1, 0, 2, 3) 
    out = np.ascontiguousarray(out) 
    return out 

注こと。

ところで、一般的に、データセット全体を1つのバッチとしてプッシュしたくない場合は、複数のバッチに分割します。

+0

バックワードパス(デコンボリューション)をベクトル化する方法はありますか? –

関連する問題