2017-11-09 14 views
1

重複が削除されていないため、DataFrame.drop_duplicatesパラメータを使用しますが、運がないとします。パンダの重複を削除する

列 "inc_id"に基づいて削除を検索します。その列に重複が見つかった場合は、最後の行のみを保持する必要があります。

私のDFは次のとおりです。

inc_id inc_cr_date 
0 1049670 121 
1 1049670 55 
2 1049667 121 
3 1049640 89 
4 1049666 12 
5 1049666 25 

出力は次のようになります。

inc_id inc_cr_date 
0 1049670 55 
1 1049667 121 
2 1049640 89 
3 1049666 25 

コードは次のとおりです。

df = df.drop_duplicates(subset='inc_id', keep="last") 

私がここで行方不明です何を任意のアイデア?ありがとう。

+0

あなたはそれが間違ったようだ得る出力を投稿できますか? –

+0

実際にはエラーではありませんが、dfシリーズは重複しています。ありがとう – Gonzalo

答えて

1

私はあなただけdrop the original indexに探していると思う:

In [11]: df.drop_duplicates(subset='inc_id', keep="last").reset_index(drop=True) 
Out[11]: 
    inc_id inc_cr_date 
0 1049670   55 
1 1049667   121 
2 1049640   89 
3 1049666   25 
+0

dfが重複しているので、動作しないようです。ありがとう。 – Gonzalo

+0

@Gonzaloこれはあなたの例のコードを実行しています!あなたの解決策は間違っていますか?質問にあなたの例の「悪い結果」を含めることができますか? –

+0

私はもう一度私のコードをチェックしてみましょう。ありがとうございました – Gonzalo