機械学習：独立変数の影響に基づいてターゲットvarを正規化する

私は、以下に述べるようなドライバのトリップ情報を持つデータセットを持っています。私の目的は、ドライバーが運んでいる荷重と運転している車両を考慮に入れた新しい走行距離または調整された走行距離を考え出すことです。マイレージと負荷の間には負の相関があることがわかりました。したがって、より多くの荷物を運ぶことができます。また、車両の種類もあなたのパフォーマンスに影響を与える可能性があります。ある意味では、重い荷物を与えられ、そのために走行距離が少なくなるような運転者が、走行距離に応じて処罰されないように、走行距離を正規化しようとしています。これまで、私は線形回帰と相関を使って、運転手が運んでいる積載量と負荷との関係を見てきました。相関は-.6であった。従属変数はGal per gallであり、独立変数はloadとVehicleです。機械学習：独立変数の影響に基づいてターゲットvarを正規化する

Drv Miles per Gal Load(lbs) Vehicle 
A  7   1500 2016 Tundra 
B  8   1300 2016 Tundra 
C  8   1400 2016 Tundra 
D  9   1200 2016 Tundra 
E  10   1000 2016 Tundra 
F  6   1500 2017 F150 
G  6   1300 2017 F150 
H  7   1400 2017 F150 
I  9   1300 2017 F150 
J  10   1100 2017 F150

結果は次のようになります。

Drv Result-New Mileage 
A 7.8 
B 8.1 
C 8.3 
D 8.9 
E 9.1 
F 8.3 
G 7.8 
H 8 
I 8.5 
J 9

これまでのところ、私はこれらのスコアを正規化するためにLRから斜面を使用する必要がありますどのように、わずか懐疑的。アプローチに関する他のフィードバックは役に立ちます。

私たちの最終的な目標は、負荷と車両の影響を考慮に入れて、1ガロンあたりのマイル数に基づいて運転手をランク付けすることです。

おかげジェイは

出典

2017-12-22 learnlearn10

最終目標は何ですか？ 1ガロン当たりのマイルへの負荷の影響を考慮したいだけの場合は、1ポンド当たりのガロンあたりのマイルをメトリックとして使用しないでください。 – pault

こんにちは！私たちの最終目標は、ドライバーが負担する負荷の影響を考慮に入れて調整された1ガロンあたりのマイルを提供することです。たとえば、負荷を使用してMPGを予測するためにLRを使用する場合、予測値と実際の値を使用できます。基本的に、運転手が巨大な荷物を積んでいて、そのために低速のmpgを取得した場合、その人にクレジットを与えたいと考えています。私たちの最終的な目標は、MPGに基づいてドライバーをランク付けすることです。 – learnlearn10

最終目標が何であるかはまだ分かりません。新しい調整済みmpgメトリックをどのように評価しますか？あなたは良いモデルを構築したかどうかをどのように知っていますか？まず、成功を測る方法を定義する必要があります。それ以上の文脈がなければ、LRを使用することはこの場合には過剰なことです。 – pault

「のスコアを正規化」する多くの方法があるかもしれません、そして最高の1は正確にあなたが（質問から明らかではないもの）を達成しようとしているものに大きく依存するでしょう。しかし、それを言って、私は簡単で実用的なアプローチを提案したいと思います。

ユートピアのケースからは、多くのデータが完全に線形であると言います。つまり、車両タイプごとに負荷とMPGの間に整然とした直線関係があるとします。その場合、ある程度の負荷があれば、車両タイプごとに予想されるMPGに関する強い予測があります。実際のMPGを期待値と比較することができます。実際のMPG /予想MPG。

しかし、実際には、データは決して完璧ではありません。したがって、利用可能なデータに基づいてモデルを構築し、予測を得ることができますが、得点の基準としてポイント見積もりを使用する代わりに、信頼区間を使用することができます。たとえば、モデルが与えられ、予想されるMPGは95〜11％の信頼度で9〜11MPGです。場合によっては（より多くのデータが利用可能な場合、またはより線形の場合）、信頼区間は狭い場合があります。他のものでは、それはより広いでしょう。

次に、MPGが予想された範囲外にある場合にのみ、行動を起こすことができます（たとえば、「punish」）。

EDIT：イラスト（R内のコード）：

#df contains the data above. 

#generate a linear model (note that 'Vehicle' is not numerical) 
md <- lm(data=df, Miles.per.Gal ~ Load + Vehicle) 

#generate predictions based on the model; for this illustration, plotting only for 'Tundra' 
newx <- seq(min(df$Load), max(df$Load), length.out=100) 
preds_df <- as.data.frame(predict(md, newdata = data.frame(Load=newx, model="Tundra")) 

#plot 
# fit + confidence 
plt <- ggplot(data=preds_df) + geom_line(aes(x=x, y=fit)) + geom_ribbon(aes(x = x, ymin=lwr, ymax=upr), alpha=0.3) 
# points for illustration 
plt + geom_point(aes(x=1100, y=7.8), color="red", size=4) +geom_point(aes(x=1300, y=4), color="blue", size=4) + geom_point(aes(x=1400, y=9), color="green", size=4)

したがって、このデータに基づいて、赤色ドライバの燃料消費量（1100年負荷7.8 MPG）が予想より大幅に悪化し、青色のもの（1300負荷の9 MPG）は予想される範囲内にあり、緑色のドライバ（14 MPGの1400負荷）は予想よりも優れたMPGを示します。もちろん、あなたが持っているデータの量とフィット感に応じて、より精巧なモデルを使うこともできますが、その考え方は変わりません。

EDIT 2：使用のいずれかに（より高いMPGはない悪く、良好であるように）

また、「スコア」ドライバに関するコメントで再質問は、合理的な方式があってもよい緑と赤との間の重複が整理を固定しました標準偏差（すなわち、標準偏差で期待される値との差）によって標準化することができます。だから上記の例では、負荷1250のラインの10％上のドライバは、負荷1500のラインの10％上のドライバよりもスコアが高くなります。不確実性が大きいためです（したがって、10％は「期待値"）。

出典

2017-12-27 22:23:47 etov

ありがとうございますEtov！それがこれまでに取ったアプローチです。我々は負荷を使用してMPGを予測するためにLRを使用してきました。私は、このアプローチが正しいかどうか、またはそれを行うより良い方法があるかどうかを確認するためにこの質問を投稿しました。私たちのケースでは、カテゴリー別の別の変数（Vehicle）があります。私は上記のデータを提供しました。どのようにして得点を標準化し、より良い車両を運転しているドライバーにペナルティを課すことができますか？ Naive Bayesを使用してMPGと車両の関係を確認する必要がありますか？ – learnlearn10

LRはカテゴリ変数を扱うことができます - 車種ごとに異なる傾き（場合によっては切片）を生成するのと同様です。とにかく、問題は「より良い方法」です。あなたは何の後にいますか？ LRのアプローチでは、あなたの目標に関して最適ではないと思われるものは何ですか？ – etov

主な目的はmpgを改善することです。これは、ドライバーの行動（スピード、制動）、ルート（マイル、交通、天候）、負荷、設備などの多くの要素に依存します。ドライバーのルートは静的なので、マイル、交通量、天気を使ってクラスターを作成しました。すべてのクラスタには別々のモデルがあります。ドライバの統計情報は、クラスタ内で互いに比較され、採点されます。データから、負荷はmpgと負の相関を示していることがわかりました。だから、もし運転手が巨大な荷物を運び、古い車両を運転しているなら、私たちはmpgに関してクレジットを与えたいと思う。 – learnlearn10

あなたが探している用語はDecorrelationです。 MPGと負荷を無相関化しようとしています。これを行う1つのアプローチは、実行したように線形モデルを訓練し、このモデルの予測を元のMPG値から差し引くことで、負荷の影響を除去します（線形モデルによる）。 Wikipedia articelは、これを「線形予測コーダ」としてリストしています。想像したいのであれば、MPGとLoadが実際に線形の関係にないと思うなら、より複雑なモデルで同じアイデアを試すことができます。

出典

2018-01-03 09:56:35 kutschkem

機械学習：独立変数の影響に基づいてターゲットvarを正規化する

答えて

関連する問題