私は初めてパンダを扱っています。私は集約に関していくつか問題があります。私はこのような適用の文で追加された3つの計算フィールドを持つデータフレームを持っている:pandasでヌル値のブール値フィールドを集計するにはどうすればよいですか?
dataset['calculated_field'] = dataset.apply(
lambda row: calculation_function(
row['field1'],
row['field2']
),
axis = 1
)
計算フィールドはブール値ですが、キャッチと。それらはヌル値を含むことができます。
ブール値の列の平均を探していますが、その平均値はその列のnullフィールドを無視しています。私はこのような何か試してみた
:
resultset = dataset.groupby(['grouping_field'])[['calculated_field','calculated_field_2','calculated_field_3']].mean()
を問題は、パンダが完全に“nuisance” column.として列をドロップし、真/偽/なしブールので、「オブジェクト」タイプであるということです。
それは私も長いルートを試してみましたが、各集計のために3つの別々のデータフレームを作成し「偽」null値になりますので、私は、しかし、ブール値に列を変換することはできませんので、私はドロップでき
(凝集させることができる)NULL値とBOOLに変換:
dataset_for_field1 = dataset.dropna(subset = ['calculated_field']).copy()
dataset_for_field1['calculated_field'] = dataset_for_field1['calculated_field'].astype('bool')
result_for_field1 = dataset_for_field1.groupby(['grouping_field'])['calculated_field'].mean()
これは私に私が探しているデータを与える
が、3つの別々のデータフレームインチ
ヌルを無視して、各列の平均で1つのデータフレームを取得する方法はありますか?
数値変換はまさに必要なものでした。ご協力ありがとうございました! – jwaltzjr