2017-01-04 2 views
1

私はかなり大きなデータセット(67列、9800行)を持っています。説明的な統計をチェックしたい。これまでのやり方は次のとおりです。pythonで大きなデータセットの説明的な統計を表示/印刷するには良い方法はありますか?

import pandas as pd 
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f', 'h'], columns=['one', 'two', 'three']) 
print(df.describe()) 
print(df.isnull().sum()) 

私は基本的な記述統計とNaNカウントを取得しようとしています。ただし、すべてのプリントは大規模なデータセットでは省略されています。

要約レポートを表示せずに表示するスマートな方法は何ですか? 生成されたテーブルをExcelにエクスポートするにはどうすればよいですか? パンダは行く道ですか?

答えて

2
df.describe().append(df.isnull().sum().rename('isnull')) 

      one  two  three 
count 5.000000 5.000000 5.000000 
mean 0.003423 -0.121164 0.386899 
std  0.532280 0.749847 0.614877 
min -0.596886 -0.767480 -0.621084 
25% -0.254336 -0.641685 0.258331 
50% -0.022049 -0.587911 0.657703 
75%  0.048015 0.631354 0.693988 
max  0.842374 0.759903 0.945556 
isnull 0.000000 0.000000 0.000000 

to_excel

でエクスポート
df.describe().append(df.isnull().sum().rename('isnull')).to_excel(filename) 
+0

クール!それはエレガントな方法です!テーブルをエクスポートすることはできますか? – Rachel

+0

編集には既にエクスポートが含まれています – piRSquared

2

私はあなたがlocを使用するためのNaN統計に新しい行を追加することができると思います。その後、

df1 = df.describe() 
df1.loc['isnull'] = df.isnull().sum() 
print (df1) 
      one  two  three 
count 5.000000 5.000000 5.000000 
mean 0.237377 -0.346928 -0.322925 
std  0.890415 0.883372 0.603782 
min -1.293332 -1.317518 -0.936159 
25%  0.415596 -1.043694 -0.730677 
50%  0.503251 -0.318196 -0.348271 
75%  0.520425 0.053760 -0.228624 
max  1.040943 0.891006 0.629104 
isnull 0.000000 0.000000 0.000000 

そしてDataFrame.to_excelを使用します。

df1.to_excel('file.xlsx') 
+0

ありがとうございます!しかし、この印刷物は依然として省略されている。さらに、 'print(df.count())'はNaN以外の統計だけを表示しますが、他の統計情報(平均、カウント、q1など)は表示しません。 – Rachel

関連する問題