別の列の値に基づいてデータセットから重複を削除する

別の列の値に応じて、データセットの特定の列から重複を削除したいとします。私のデータセットとしてこれを考えてみましょう：別の列の値に基づいてデータセットから重複を削除する

私はこのような何かの列Bから重複を削除したいが、列Aの値に応じなりますが、列Aの値について

を私はdrop_duplicateを使用すると考えましたが、どのように私はそれに条件を注入するのですか？

2017-09-02 Sahil

シンプルdf.drop_duplicates(subset=['A','B'])があなたの期待出力を生成する必要があります。この場合、前の行と一致するAとBの両方を持つ行は重複しているとみなされ、削除されます。

2017-09-02 09:05:40 gereleth

たぶん、あなたが使用することができます。

df.groupby(['A'])['B'].apply(np.unique)

をしかし、この命令は、データフレームを返しませんが、このような何か：

A 
1 [10, 12, 13] 
2  [10, 24] 
3   [9, 10] 
Name: B, dtype: object

2017-09-02 08:38:31 Grigoriy

答えて