機械学習のサンプルデータを作成して、分類および回帰モデルがどのように機能するかをチェックアウトしました。分類係数または回帰アルゴリズムモデルからの相関係数またはフィーチャーのインポート
サンプルデータには、Memory
、CPU
、Responsetime
の列を含む50行があります。式Memory*2 + CPU*0.7
を使用してResponsetime
を生成しました。今
私はDecisionTree、ランダムフォレストのような異なるアルゴリズムを使用して、分類のためのモデルを生成するには、このデータを使用し、SVM、NaiveBayes、SGD、ロジスティック回帰が、私はカッパと相関係数を取り戻します(model.coef_
)と、意思決定木、ランダムな森林の場合の特徴の重要度を示します。
Memory
とCPU
について返される係数値は、これらの応答時間の値を生成するために使用した公式の近くにはありません。このモデルでは、生成されたモデルが予測に使用できるかどうかを理解できません。
回帰については、線形回帰は私の公式と一致する正しい係数を与えました。
'model.coef_'は相関係数を与えません。彼らはフィーチャーの最終的な重みを与えます。また、これは単に回帰の問題であり、分類ではありません(データを2つ以上の固定クラスに分類していない)。 –
分類モデルの生成に関する不完全な説明ができません。 ResponseTime> 200のような条件を追加することで、Response timeカラムを新しいtrue/falseカラムに変換しました。そうでない場合はfalseです。元のResponseTime列を削除しました。だから今私は "メモリ"、 "CPU"と "真/偽"の列があり、私はそれに分類アルゴリズムを実行しています。メモリとCPUのために生成された係数はDecisionTreeで例えばkappa = 1で1と0になります。ランダムフォレストの場合、メモリは0.2、CPUは0.7、カッパ= 1 – newToML