パンダの重複を削除する

重複が削除されていないため、DataFrame.drop_duplicatesパラメータを使用しますが、運がないとします。パンダの重複を削除する

列 "inc_id"に基づいて削除を検索します。その列に重複が見つかった場合は、最後の行のみを保持する必要があります。

私のDFは次のとおりです。

inc_id inc_cr_date 
0 1049670 121 
1 1049670 55 
2 1049667 121 
3 1049640 89 
4 1049666 12 
5 1049666 25

出力は次のようになります。

inc_id inc_cr_date 
0 1049670 55 
1 1049667 121 
2 1049640 89 
3 1049666 25

コードは次のとおりです。

df = df.drop_duplicates(subset='inc_id', keep="last")

私がここで行方不明です何を任意のアイデア？ありがとう。

出典

2017-11-09 Gonzalo

あなたはそれが間違ったようだ得る出力を投稿できますか？ –

実際にはエラーではありませんが、dfシリーズは重複しています。ありがとう – Gonzalo

私はあなただけdrop the original indexに探していると思う：

In [11]: df.drop_duplicates(subset='inc_id', keep="last").reset_index(drop=True) 
Out[11]: 
    inc_id inc_cr_date 
0 1049670   55 
1 1049667   121 
2 1049640   89 
3 1049666   25

出典

2017-11-09 16:44:53

dfが重複しているので、動作しないようです。ありがとう。 – Gonzalo

@Gonzaloこれはあなたの例のコードを実行しています！あなたの解決策は間違っていますか？質問にあなたの例の「悪い結果」を含めることができますか？ –

私はもう一度私のコードをチェックしてみましょう。ありがとうございました – Gonzalo

パンダの重複を削除する

答えて

関連する問題