詳細な学習はrebranding of Neural Networksと見なされています。ニューラルネットワークはバイアス/分散ジレンマをどのように克服しましたか?
ペーパー"Neural Networks and the Bias/Variance Dilemma" by Stuart Gemanに記載されている問題は、今日使用されているアーキテクチャで解決されましたか?
詳細な学習はrebranding of Neural Networksと見なされています。ニューラルネットワークはバイアス/分散ジレンマをどのように克服しましたか?
ペーパー"Neural Networks and the Bias/Variance Dilemma" by Stuart Gemanに記載されている問題は、今日使用されているアーキテクチャで解決されましたか?
は、我々は特に、NNについて多くのことを学んだ:
多くの変更が加えられましたが、一般的には、より優れたアーキテクチャと優れた前提条件を簡単に見つけることができたため、より狭い仮説クラスを検索します。その結果、私たちは過少な(分散)、過小フィット(偏り)がありましたが、まだたくさんのことが行われています!
次のものは、@ダビデが指摘したように、データの量です。現在、巨大なデータセットがあり、妥当な時間内に処理できるデータにアクセスできることが多く、明らかにデータが多いほど変動が少ないことを意味します。
最後に、ハードウェアの最後のハードウェアです。これは、すべての深い学習エキスパートがあなたに伝えるものです。コンピュータがより強くなっています。同じアルゴリズム、同じアーキテクチャを使用しています(コアは同じですが、コアは同じです)が、我々のハードウェアは指数関数的に速くなり、が多く変更されます()。
@lejlotは良い概要を示しました。私は全体のプロセスの2つの特定の部分を指したいと思います。
まず、ニューラルネットワークは普遍的な近似器です。つまり、原則としてバイアスを任意に小さくすることができます。むしろ重大であると考えられていた問題は、あまりにも大きな差異であった。
あまりにも大きな分散を扱うために、機械学習でよく成功する方法は、多くの異なる予測に対して「平均化」することです。できるだけ相関のないものでなければなりません。これは例えばランダムフォレストでも働きました。このようにして、現在のニューラルネットワーク(特にmaxout +ドロップアウトのもの)も理解する傾向があります。もちろん、これは狭い視点です - この全体的な表現学習、非説明的なプロパティなどがありますが、バイアス/分散のトレードオフについてのあなたの質問に適しています。
第2のポイント:非常に多くのデータを持つよりも、オーバーフィッティングを防ぐより良い方法はありません。現在、私たちは多くのデータを集める状況にあります。
プラス、良い概要です。 Afaikは、2000年代初頭の深い学習の後、現在の最先端技術である「通常の」フィードフォワードネットワーク、適切な起動(例:maxout)、わずかに変更されたトレーニング手順(ドロップアウト - 分散の縮小ランダムなフォレストに似ています)。同意しますか? – davidhigh
convnetsは大量に使用されています。これは非常に強力な先験的なものです(非常に特殊なアーキテクチャ)。同様に、rnnでは、lstmの発見は(多くの場合、消滅/爆発の勾配に、あるいは少なくともあまりにも多くはない)問題をもたないので、多くの変更があります。したがって、私は "普通の" nnを使うとは言いません。適切なトレーニングとアクティベーションが与えられた "正常な"ものは以前よりはるかに深く狭くなりました。これも以前と変わりませんでした。これは「それ」ではありません。しかし、これらすべての小さな変化は最後に多く変わります:-) – lejlot
合意、新しいか正常かは視点にかかっています;-)私はコンビネーションの2つの理由を見ています:歴史的(強い)と先行知識(弱い、 )。彼らの将来の地位はどう思いますか?彼らは死ぬのか、それとも残るのだろうか? Afaik、最近の課題は、多かれ少なかれ標準的な深いネット(つまり、人間の構造化があまりない)によって得られることがよくありました。 – davidhigh