2016-05-13 14 views
0

私は、2つの独立したカテゴリ変数と1つの数値応答変数で回帰モデルを適合させています。私は変数CategoryにAとBの2つのレベルを持っています。色、赤、オレンジ、黄の3つのレベル。しかし、これらのレベルのサイズは大きく異なります。ここに例を示します:レベルの大きさは回帰モデルの結果に影響しますか?

Category Color Price 
    A R 12 
    A R 43 
    A Y 32 
    A Y 31 
    A R 21 
    A Y 56 
    A Y 34 
    A Y 23 
    A R 12 
    A R 6 
    A R 43 
    B Y 32 
    B R 12 
    B R 26 
    B O 15 
    B R 27 
    B R 14 
    B O 13 
    B R 37 
    B O 15 
    B O 47 
    B R 25 

カテゴリAには黄色があり、カテゴリBには黄色が1つしかありません。カテゴリと色の間にどれくらいの価格差があるかの結論を得るには、回帰モデルに適合するのはいいですか?

答えて

0

数値フィーチャ変数がない場合は、回帰モデルを構築することはあまり意味がありません。各カテゴリの手段を使うことができます。たとえば、パンダの使用:

pd.pivot_table(df,columns=['Category','Color'],aggfunc=np.mean) 

     Category Color 
Price A   R  22.833333 
       Y  35.200000 
     B   O  22.500000 
       R  23.500000 
       Y  32.000000 
+0

ありがとうございます。私は数値変数を持つのはどうですか?レベルの大きさについて議論するために上記の例を示します。実際に私は他の変数を持つ回帰モデルを使用します。私の回帰モデルのアイテムの年齢が「年齢」の場合、私の質問に対する答えを教えてもらえますか? –

関連する問題