2011-01-06 45 views
25

機械学習の学習曲線が何であるか知りたい。それをプロットする標準的な方法は何ですか?私は私のプロットのx軸とy軸が何を意味するのですか?機械学習で学習曲線とは何ですか?

+1

は聞いたことがない。この概念についてよりよく理解するために役立った、個人的に

苦しんされる診断に役立てることができます学習曲線。 ROC曲線ですか? http://en.wikipedia.org/wiki/Receiver_operating_characteristic – Stompchicken

+4

いいえ、学習曲線とROC曲線は、以下で説明するように、同義語ではありません。 – MattBagg

+0

@MattBagg:あなたは絶対に正しいです、私は編集の前にロールバックしました。 – Amro

答えて

34

それを訓練するために使用されるインスタンスの数)

alt text

+2

参照:http://www.astroml.org/sklearn_tutorial/practical.html #learning-curves – alfa

+2

さらに最新の記事があります:http://scikit-learn.org/stable/modules/learning_curve.html –

13

反復数の関数として反復手続きのエラーを参照するために「学習曲線」を使用する人がいます。つまり、いくつかのユーティリティ関数の収束を示しています。以下の例では、最小二乗平均(LMS)アルゴリズムの平均二乗誤差(MSE)を反復数の関数としてプロットします。これは、LMSがこの場合、チャネルインパルス応答をどれほど迅速に「学習するか」を示しています。どのようにより良いモデルがあなたのように増加し、目標の予測で取得ん:私はそれが普通トレーニングセットのサイズ(すなわち対予測精度/誤差のプロットを指し考える

learningcurves.png

7

は基本的には、機械学習曲線を使用すると、アルゴリズムが学ぶために開始し、そこからポイントを見つけることができます。あなたが曲線を取って、それが一定に達する点で微分の傾斜接線をスライスすると、それが学習能力を構築し始めるときです。

x軸とy軸のマッピング方法によっては、軸の一方が一定値に近づき始め、他方の軸の値は増加し続けます。これはあなたが何らかの学習を見始める時です。カーブ全体で、あなたのアルゴリズムが習得できる速度を測定することができます。最大のポイントは、通常、勾配が後退し始めるときである。最大/最小ポイントまで数多くの派生尺度を取ることができます。

上記の例から、カーブが徐々に一定値に向かっていることがわかります。それは最初に訓練の例を通して学習を利用し始め、勾配は最大/最小点で広がり、一定の状態に近づく傾向があります。この時点で、テストデータから新しい例を取り上げ、データから新しいユニークな結果を見つけることができます。 エポックとエラーのx軸/ y軸の測定値があります。

27

学習曲線とROC曲線が同義語ではないことを指摘するために、この古い質問に簡単な注釈を残したいだけです。この質問に対する他の回答に示されるよう

学習曲線は、従来、このようなトレーニングセットのサイズとして(横軸上の)他のパラメータの変化は、ある垂直軸上の性能の改善を(で示します機械学習)または反復/時間(機械学習と生物学学習の両方で)。 1つの顕著な点は、モデルの多くのパラメータがプロット上の異なる点で変化していることです。ここでのその他の答えは、学習曲線を説明するうえで素晴らしい仕事でした。

(1930年代の観察では、製造単位数が倍増するにつれて、個々の単位を生産するのに必要な労働時間が一定の割合で減少するという産業生産の学習曲線の意味もあります。実際には関係ありませんが、完全を期すために注目し、ウェブ検索での混乱を避けるために価値がある)とは対照的に

受信者動作特性曲線、またはROC曲線、学習は表示されません。パフォーマンスを示します。ROC曲線は、クラシファイアの弁別閾値が変化するにつれて、真の正の速度(縦軸)の増加と(横軸の)偽陽性率の増加との間のトレードオフを示す分類器性能のグラフ表示である。従って、モデルに関連する単一のパラメータ(判定/識別閾値)のみが、プロット上の異なる点で変化している。このROC曲線(from Wikipedia)は、3つの異なる分類子の性能を示す。

ROC curve, see previous link for CC licensing

あり、ここで描かれて何の学習はありませんが、むしろ、分類器の決定閾値として成功/エラーの2つの異なるクラスに関して、性能は厳密/もっと寛大行われます。カーブの下の領域を見ることによって、分類器がクラスを区別する能力の全体的な指標を見ることができる。この曲線下面積メトリックは、2つのクラスのメンバー数に影響されないため、クラスメンバーシップが不均衡である場合、実際のパフォーマンスを反映しないことがあります。 ROC曲線は、多くの字幕や関心のある読者は、チェックアウトする可能性があります。

Fawcett, Tom. "ROC graphs: Notes and practical considerations for researchers." Machine Learning 31 (2004): 1-38.

Swets, John A., Robyn M. Dawes, and John Monahan. "Better decisions through Science." Scientific American (2000): 83.

+0

+1よく説明されています – Amro

2

どのようにしてより多くのトレーニングのポイントが参考になりますかどうかを指定されたモデルのために判断することができますか?これに対する有用な診断は、学習曲線である。トレーニングセットのサイズ対予測精度/誤差の

•プロット(すなわち:どのようにより良いモデルは、あなたとしてそれを訓練するために使用されるインスタンスの数の増加を目標の予測で取得ん)

曲線を学ぶ• (機械学習における)トレーニングセットサイズや反復/時間など、別のパラメータ(水平軸上)に変化があった場合の垂直軸のパフォーマンスの向上を示しています。•学習曲線は、アルゴリズムの健全性チェックや性能向上のため

•ラーニングカーブプロットは問題あなたのアルゴリズムは、以下の2つのリンクが、私は

Learning Curve

Sklearn Learning Curve