Pandasに欠落しているデータがいくつもある行/列を選択するにはどうすればよいですか？

データが欠落している行や列を選択する方法を学習しようとしています。 value_countsを使用すると、条件を満たす列を見つけることができますが、データフレームから対応する列にアクセスして削除できるように、インデックスをint形式で取得する方法を見つけることができません。Pandasに欠落しているデータがいくつもある行/列を選択するにはどうすればよいですか？

intでインデックスを変換/取得するにはどうすればよいですか？そして、これを行うためのより簡単な方法がありますか？

df3 = pandas.DataFrame([[1,6.5,3],[1,'NA','NA'],[3,'NA','NA'],['NA',6.5,'NA']]) 
    df3_value_counts = df3.apply(pandas.value_counts).fillna(0).ix['NA'] 
    df3_missing_data_index = df3_value_counts[df3_value_counts > 2].index

出典

2016-11-16 user3562812

最初のオフは、あなたがやりたいそして、あなたが方法で構築使用することができますNaN

df3 = df3.replace('NA', np.nan).astype(float)

を表すものを使用してオフにはるかに優れている

df3.dropna(axis=1, thresh=2)

出典

2016-11-16 22:23:33 piRSquared

ここに1つのアプローチがあります。

df3.columns[(df3.values == 'NA').sum(0) > 2]

代わりに、おそらく少し遅くなりますが、コンパクトな1 -

df3.columns[(df3 == 'NA').sum(0) > 2]

サンプル実行 -

In [292]: df3 
Out[292]: 
    0 1 2 
0 1 6.5 3 
1 1 NA NA 
2 3 NA NA 
3 NA 6.5 NA 

In [293]: df3.columns[(df3.values == 'NA').sum(0) > 2] 
Out[293]: Int64Index([2], dtype='int64')

出典

2016-11-16 22:34:57 Divakar

Pandasに欠落しているデータがいくつもある行/列を選択するにはどうすればよいですか？

答えて

関連する問題