2017-09-13 5 views
1

私はデータフレームを持っています。私の欠けているサンプル/データポイントはNaNフォーマットを取らず、999.99と書かれています。私には完全な質問があります:パンダのデータフレームに欠けているサンプルポイントの数を調べる

見つからないサンプルの数を見つけて、見つからなかったサンプルの合計数と共に、見つからなかったサンプルの日付/時刻をリストします。

コード:私の答えを得た

import pandas as pd 

df=pd.read_table('EXAMPLE.txt', sep='\s+') 

    DATE  TIME   A  B 
0 2016-01-01 00:00:00.000 443.30 469.80 
1 2016-01-01 00:01:00.000 145.80 470.00 
2 2016-01-01 00:02:00.000 999.99 999.99 
3 2016-01-01 00:03:00.000 452.20 471.00 
4 2016-01-01 00:04:00.000 174.20 461.30 
5 2016-01-01 00:05:00.000 745.30 471.90 

print(df.loc[df['A']==999.99]) 

    DATE   TIME   A  B 
2 2016-01-01 00:02:00.000 999.99 999.99 

だから私はいくつかの点で、しかし、私が試してみて、やってみたかったことの数を見つける質問に答えるコードの一部作品を取り入れているしていますサンプルが見つからない場合およびサンプルが不足している場合は、の合計数が明らかです。私はここで完璧を目指しています。

すべてのアイデアは、あなたの期待出力であるおかげ

+0

何、いただければ幸いです。特に、「欠落サンプル数」と「欠落サンプル総数」との間の任意の区別。 – Alexander

+0

私は予想される出力はあなたが自分で持っているものだと推測しています。それはユニで私に提起された問題でした。私の言うように、私の元のプログラムは、何が必要なのかを感じました。質問は私には少しばかげているようです..助けてくれてありがとう – Matthew

答えて

1
missing_samples = (df[['A', 'B']] == 999.99) 
missing_samples_count = missing_samples.sum().sum() 
missing_samples_df = df[missing_samples.any(axis=1)] 

>>> missing_samples_df 
     DATE   TIME  A  B 
2 2016-01-01 00:02:00.000 999.99 999.99 

>>> missing_samples_count 
2 # (Both 'A' and 'B') 
関連する問題