テンソルフロー：MLPの "SGD"を使用した "Sigmoid"の適切な学習率

-1

現在、Tensorflowで1つの隠れ層、softmax出力層（shape = [440,8196,8]、ラベルは疎）さまざまな設定を試みました。異なる有効化機能、異なるオプティマイザほとんどの設定は正常に機能し、設定（シグモイド、SGD）を除いて合理的な収束したクロスバリデーション結果を提供します。 1.0、0.1、0.001、0.0001から0.00001までさまざまな学習率でデバッグしましたが、トレーニングはまだ機能しておらず、収束していません。他の設定が正常に機能するため、これは私を混乱させます。（sigmoid、Adam、learning_rate = 0.001）、（tanh/elu/relu、SGD、learning_rate = 0.008、各エポックで半分にする）。テンソルフロー：MLPの "SGD"を使用した "Sigmoid"の適切な学習率

私は、MNISTデータでこのような異なる設定をテストしたので、すべてのTensorflow機能がうまくいくと思います。すべて意味があります。なぜ（Sigmoid、SGD）が私の場合だけでは機能しないのですか（自分のデータ）??? 私の限られた経験から、 "Sigmoid"は通常、 "tanh"より少し大きい学習率に耐えることさえできます。私は異なる初期化スキーム（定数、一様）を変更しましたが、問題がどこにあるかはまだ分かりません。さらにデバッグするための提案はありますか？どうもありがとう！！！

出典

2016-06-21 Fei

1つまたは2つのユニットを備えた単一層ネットワークから始めて（Sigmoid、SGD）最初にテストしてから、ネットワークの複雑さを徐々に増やしてください。この方法で、アルゴリズムの問題とテンソルフローの使用/実装の問題をよりよく分けることができます。

出典

2016-06-21 21:39:48

ありがとう、ヤオ。はい、私はいくつかのPythonコードをMNISTでテストしましたが、（Sigmoid、SGD）は他の設定と同じようにうまくいきました。私は自分のデータを訓練し始め、この問題に遭遇しました。私は実装がOKだと確信していますが、なぜ（Sigmoid、SGD）が収束しなかったのか混乱しましたか？初期化パラメータに敏感すぎるのか、学習率を適切に微調整するのですか？ – Fei

テンソルフロー：MLPの "SGD"を使用した "Sigmoid"の適切な学習率

答えて

関連する問題