2016-06-21 13 views
-1

現在、Tensorflowで1つの隠れ層、softmax出力層(shape = [440,8196,8]、ラベルは疎)さまざまな設定を試みました。異なる有効化機能、異なるオプティマイザほとんどの設定は正常に機能し、設定(シグモイド、SGD)を除いて合理的な収束したクロスバリデーション結果を提供します。 1.0、0.1、0.001、0.0001から0.00001までさまざまな学習率でデバッグしましたが、トレーニングはまだ機能しておらず、収束していません。他の設定が正常に機能するため、これは私を混乱させます。 (sigmoid、Adam、learning_rate = 0.001)、(tanh/elu/relu、SGD、learning_rate = 0.008、各エポックで半分にする)。テンソルフロー:MLPの "SGD"を使用した "Sigmoid"の適切な学習率

私は、MNISTデータでこのような異なる設定をテストしたので、すべてのTensorflow機能がうまくいくと思います。すべて意味があります。 なぜ(Sigmoid、SGD)が私の場合だけでは機能しないのですか(自分のデータ)??? 私の限られた経験から、 "Sigmoid"は通常、 "tanh"より少し大きい学習率に耐えることさえできます。私は異なる初期化スキーム(定数、一様)を変更しましたが、問題がどこにあるかはまだ分かりません。さらにデバッグするための提案はありますか?どうもありがとう!!!

答えて

0

1つまたは2つのユニットを備えた単一層ネットワークから始めて(Sigmoid、SGD)最初にテストしてから、ネットワークの複雑さを徐々に増やしてください。この方法で、アルゴリズムの問​​題とテンソルフローの使用/実装の問題をよりよく分けることができます。

+0

ありがとう、ヤオ。はい、私はいくつかのPythonコードをMNISTでテストしましたが、(Sigmoid、SGD)は他の設定と同じようにうまくいきました。私は自分のデータを訓練し始め、この問題に遭遇しました。私は実装がOKだと確信していますが、なぜ(Sigmoid、SGD)が収束しなかったのか混乱しましたか?初期化パラメータに敏感すぎるのか、学習率を適切に微調整するのですか? – Fei

関連する問題