2017-03-09 7 views
1

私は1000+列の巨大なデータセットを持っています。それらのほとんどに* NaNの*またはほんの数の値が含まれています。各列を手動でふるい分けることは、無理な時間の無駄です。 1つのコマンドで列の多様性、トップ周波数値などを推定するにはどうすればよいですか?パンダ:列の値を一目で把握

+6

'pandas.DataFrame.describe()は'パンダドキュメントの入門テキストで非常に早い段階で紹介されています:のhttp://pandas.pydata私はあなたがそこに見てくださいトップ共通の値を取得するには .org/pandas-docs/stable/10min.htmlを参照してください。http://pandas.pydata.org/pandas-docs/stable/10min.html#histogramming –

+0

「少数」の値はどういう意味ですか? 離散的な繰り返し値または浮動小数点値がありますか? – FLab

答えて

0

まず、あなたがそのようなループのために作ることができますので、含まれている単一何の列を取得する必要があります。

column = [array[i] for i in range(0,len(array), STEP] 

どこSTEP =あなたのファイル内の列の数が

次に、あなたが行うことができますあなたが望むものは何でも。あなたの質問に答えると 、つまりmax(column) - min(column)を使用すると、多様性が得られます。

click

+0

これは 'dataframe.describe()'と比較してかなり非効率的です。 –

関連する問題