データフレームpandas-pythonの値の条件付き確率を計算するには？

私は、格付け欄に格付けの条件付き確率（ 'A'、B '、' C '）を計算したいと考えています。データフレームpandas-pythonの値の条件付き確率を計算するには？

company  model rating type 
0 ford  mustang  A  coupe 
1 chevy  camaro  B  coupe 
2 ford  fiesta  C  sedan 
3 ford  focus  A  sedan 
4 ford  taurus  B  sedan 
5 toyota  camry  B  sedan

出力：

Prob(rating=A) = 0.333333 
Prob(rating=B) = 0.500000 
Prob(rating=C) = 0.166667 

Prob(type=coupe|rating=A) = 0.500000 
Prob(type=sedan|rating=A) = 0.500000 
Prob(type=coupe|rating=B) = 0.333333 
Prob(type=sedan|rating=B) = 0.666667 
Prob(type=coupe|rating=C) = 0.000000 
Prob(type=sedan|rating=C) = 1.000000

すべてのヘルプ、感謝..！

出典

2016-06-14 A. Chandu

も、ちょうどそれを行う:)。 Prob（タイプ=クーペ|レーティング= A）= Prob（タイプ=クーペとレーティング= A）/ Prob（レーティング= A）。 – cel

あなたはgroupbyを使用することができます。

In [2]: df = pd.DataFrame({'company': ['ford', 'chevy', 'ford', 'ford', 'ford', 'toyota'], 
        'model': ['mustang', 'camaro', 'fiesta', 'focus', 'taurus', 'camry'], 
        'rating': ['A', 'B', 'C', 'A', 'B', 'B'], 
        'type': ['coupe', 'coupe', 'sedan', 'sedan', 'sedan', 'sedan']}) 

In [3]: df.groupby('rating').count()['model']/len(df) 
Out[3]: 
rating 
A 0.333333 
B 0.500000 
C 0.166667 
Name: model, dtype: float64 

In [4]: (df.groupby(['rating', 'type']).count()/df.groupby('rating').count())['model'] 
Out[4]: 
rating type 
A  coupe 0.500000 
     sedan 0.500000 
B  coupe 0.333333 
     sedan 0.666667 
C  sedan 1.000000 
Name: model, dtype: float64

出典

2016-06-14 17:16:48

あなたは.groupby()を使用し、内蔵の.div()ことができます。

rating_probs = df.groupby('rating').size().div(len(df)) 

rating 
A 0.333333 
B 0.500000 
C 0.166667

と条件付きちゃったごめんなさい：あなたはreindexを追加必要

df.groupby(['type', 'rating']).size().div(len(df)).div(rating_probs, axis=0, level='rating') 

coupe A   0.500000 
     B   0.333333 
sedan A   0.500000 
     B   0.666667 
     C   1.000000

出典

2016-06-14 17:19:39 Stefan

私は 'level'パラメータは0でなく1であるべきだと信じています。 – Patthebug

試しましたか？上記の作業バージョンを 'level = 0'に変更すると値が失われます。 'rating_probs'はレベル1である' rating'レベルに揃えなければなりません。また、 'level = 1'を' level = 'rating''に変更して、なぜこれがうまく動作するのかを知ることができます。それに応じてただ編集されました。 – Stefan

興味深い。私は 'level = 1'で結果を得ていましたが、その結果は正しくありませんでした。それを 'level = 0'に変更すると私に正しい条件付き確率値が与えられました。 – Patthebug

追加のために0ミスインの値G組：

mux = pd.MultiIndex.from_product([df['rating'].unique(), df['type'].unique()]) 
s = (df.groupby(['rating', 'type']).count()/df.groupby('rating').count())['model'] 
s = s.reindex(mux, fill_value=0) 
print (s) 
A coupe 0.500000 
    sedan 0.500000 
B coupe 0.333333 
    sedan 0.666667 
C coupe 0.000000 
    sedan 1.000000 
Name: model, dtype: float64

、別の解決策、感謝Zero：

s.unstack(fill_value=0).stack()

出典

2017-10-01 18:03:56 jezrael

's.unstack（fill_value = 0）.stack（）'はおそらく行うべきですか？ – Zero

データフレームpandas-pythonの値の条件付き確率を計算するには？

答えて

関連する問題