2017-09-02 7 views
1

別の列の値に応じて、データセットの特定の列から重複を削除したいとします。私のデータセットとしてこれを考えてみましょう:別の列の値に基づいてデータセットから重複を削除する

A B 
1 10 
1 10 
1 12 
1 13 
2 10 
2 24 
2 10 
3 9 
3 10 
3 9 

私はこのような何かの列Bから重複を削除したいが、列Aの値に応じなりますが、列Aの値について

A B 
1 10 
1 12 
1 13 
2 10 
2 24 
3 9 
3 10 

を私はdrop_duplicateを使用すると考えましたが、どのように私はそれに条件を注入するのですか?

答えて

0

シンプルdf.drop_duplicates(subset=['A','B'])があなたの期待出力を生成する必要があります。この場合、前の行と一致するAとBの両方を持つ行は重複しているとみなされ、削除されます。

0

たぶん、あなたが使用することができます。

df.groupby(['A'])['B'].apply(np.unique) 

をしかし、この命令は、データフレームを返しませんが、このような何か:

A 
1 [10, 12, 13] 
2  [10, 24] 
3   [9, 10] 
Name: B, dtype: object 
関連する問題