答えて

3

@Frank Pufferの答えとは違うことを頼みます。私は隠れた層などで教師なしの学習手順を実行することによって彼が意味するものを理解していません。

ディープラーニングは、一般に2つ以上の隠れ層を持つニューラルネットワークモデルを指します。ほとんどのDLモデルは10〜100以上のレイヤーを持ちます。 - インターネット時代
2の積である
1.大量のデータの可用性:

深い学習モデルの最近の革命は二つのことに依存しています。GPUの利用可能性

DLモデルの最適化に使用されるアルゴリズムは、バックプロパゲーションアルゴリズムと呼ばれます(これは数学的には勾配のあるものと同等です)。 Backpropは実際には少なくとも80年代以降存在しています - それはDL特有のものではありません。

DLモデルは一般に、モデルの複雑さとサイズのために大量のデータを必要とします。彼らは通常、何百万もの調整可能な重量パラメータを持っています。最適化には、訓練データのサイズと各反復で計算する必要のある数百万の偏微分(重みに関する)のために高い計算能力が必要です。

本質的に、ディープラーニングはマーケティングの誇大宣伝ではありません。多くのデータと強力なGPUを必要とする大規模な多層ニューラルネットワークモデルです。そして、それが訓練されると、特定の作業で超人間の精度を達成します。

+0

私は答えの間に矛盾がたくさんあるとは思わない、我々は異なる側面を強調する。私の主なポイントは、3つ以上の層を持つネットワークでは、標準的なバックプロップのパフォーマンスが悪いことでした。これは単なるコンピューティングパワーの問題ではありません。単純に問題があっても、ほとんどの場合、10以上のレイヤーを持つネットワークにバックプロップを適用すると、ほとんどの場合停止します。過去数年の間に、この問題を克服するために、さまざまな改良点と巧妙さが開発されました。そのうちの1つは私が言及した監督されていない事前訓練です。もともと考えられていたより有用性が低いことが判明したのは事実です。 –

+0

@FrankPuffer。私はどのように効果的かつ広く使用されているのか分かりません。しかし、それは必ずしもDLを可能にするものではない。一方、ReLUs(<おそらく、3つ以上の層を持つモデルでバックプロップを動作させる主な理由)やスキップ接続(たとえば_ResNet_&_LSTMs_)のようなアーキテクチャ革新によって、バックプロップのトレーニングはうまくいっています。リスト。より深いモデルを訓練するのに役立つ他のアーキテクチャ設計(_Batch_ _normalization_や_Xavier__initialization_など)もありますが、この記事では取り上げるべきではありません。 –

+0

右のように、あなたが言及した他のテクニックを優先して、監督されていないプレトレーニングが最近人気がなくなったようです。私は私の答えを編集しました。ところで、30年前と同じネットワークアーキテクチャをまだ使用していた場合、ハードウェアのパフォーマンスとデータの可用性はほとんど役に立たないため、元の回答よりもはるかに適切なコメントを見つけることができます。 –

2

近年、さまざまな機械学習の問題を解決するために開発されたモデルは、非常に多くのレイヤを使用してはるかに複雑になっています。たとえば、GoogleのInception-v3モデルは42層あります伝統的なニューラルネットワークは、通常、隠れたレイヤーをほんの一握りしか使用しません。 「ディープ・ラーニング」と「ディープ・コンボリューション・ニューラル・ネット」という文脈で使用される「ディープ」という用語は、関係する層の実質的な数にはうなずいています。

+0

この回答は主な点を逃していると思います。バックプロパゲーションのような伝統的な学習アルゴリズムを使用しながら、もっと多くのレイヤーを単純に追加することはできません。これは単に機能しません。しかし、幸いなことに、賢明な人たちは、学習アルゴリズムの改良を思いつきました。誰かがこのために派手な名前を見つけました: "深い学習"。 –

+0

私はあなたの中心点に同意し、実際に私はあなたの答えを受け入れるポスターをお勧めします。一方で、コアトレーニングアルゴリズムがどれだけ変化していないかは、実際には非常に信じられないほど深刻な畳み込みニューラルネットは、非常に異なる接続構造を採用しています。私は、レイヤーの構造とオーバーフィットに対応するために開発されたさまざまなテクニック(例えば、畳み込みレイヤーとドロップアウト)に大きな変化があると言います。 – Aenimated1

10

レイヤの数が多くなると、標準的なバックプロパゲーションアルゴリズム(勾配降下)が深刻な問題になります。誤差関数における極小値の確率は、各層ごとに増加する。数学的な意味での極小値だけでなく、誤差関数にフラットな領域が存在することもあります(1つ以上の重みを変更しても誤差は大きく変化しません)。

一方、多くのレイヤを持つネットワークでは、すべてのセルレイヤが抽象レイヤを提供できるため、より困難な問題を解決できます。

ディープラーニングはこの問題に完全に対応しています。基本的な考え方は、ネットワーク全体の勾配降下を使用することに加えて、すべての単一のレイヤーについて監督されていない学習手順を実行することです。監督されていない学習の目的は、各単一のレイヤーが後のレイヤーで使用できる入力から特性フィーチャーを抽出するようにすることです。

「ディープラーニング」という用語は、現在のところ広範に使用されていますが、単なるマーケティングの誇大広告ではありません。

編集:数年前、自分自身も含めて、教師なしの事前トレーニングが深い学習の主な可能性を信じていました。それ以来、多くの場合、より良い結果を生み出す他の技術が普及しました。 (彼自身の答え以下)@Safak Okzanでのコメントで述べたように、これらが含まれます:

  • 残留ネットワーク

  • バッチ正規線形単位を整流

+1

ありがとう!それは私が探していた説明のタイプです。 –

関連する問題