重複が削除されていないため、DataFrame.drop_duplicatesパラメータを使用しますが、運がないとします。パンダの重複を削除する
列 "inc_id"に基づいて削除を検索します。その列に重複が見つかった場合は、最後の行のみを保持する必要があります。
私のDFは次のとおりです。
inc_id inc_cr_date
0 1049670 121
1 1049670 55
2 1049667 121
3 1049640 89
4 1049666 12
5 1049666 25
出力は次のようになります。
inc_id inc_cr_date
0 1049670 55
1 1049667 121
2 1049640 89
3 1049666 25
コードは次のとおりです。
df = df.drop_duplicates(subset='inc_id', keep="last")
私がここで行方不明です何を任意のアイデア?ありがとう。
あなたはそれが間違ったようだ得る出力を投稿できますか? –
実際にはエラーではありませんが、dfシリーズは重複しています。ありがとう – Gonzalo