たとえば、次のようなDataFrameがあります。パンダで複雑なデータクリーニングを行う方法
lineNum id name Cname score
1 001 Jack Math 99
2 002 Jack English 110
3 003 Jack Chinese 90
4 003 Jack Chinese 90
5 004 Tom Math Nan
6 005 Tom English 75
7 006 Tom Chinese 85
ご覧のとおり、このデータのデータクリーニングが必要です。 1)3行目と4行目の重複値を削除します。 2)不合理な値を扱います。 2行目で、Jackの英語は最大値100を超える110を取得します。私はすべての学生の英語スコアの平均値にスコアを設定したいと思います。 3)Nan値を処理します。トムの数学の得点はナンです。私はすべての生徒の数学の平均値に変更したいと思います。
それぞれの要件をすべて満たすことができます。しかし、私はこれらの3つの要件すべてをどうやって行うのか分かりません。ありがとう!
を埋めるためにそれを使用します最初のように重複を取り除き、すべてのnull値と範囲外の値については、平均値 –
に置き換えて、 'Dataframe.drop_duplicate()'を使用して110スコアを取り除くことができますあなたが知っているように簡単ですmaxは100です。次に、nan値に 'Dataframe.fillna()'を使います –