私は重複と更新日を持つデータフレームを持っています。開始日: パンダのデータフレームの重複除外と最新のレコードの取得
私が探しているのは、重複を削除して最新のレコードを取得する方法です。私はdrop_duplicates()について知っているが、それは100%同一の行しかドロップしない。私はこのようなものを試してみました
:だから、所望の出力は次のようになり
grouped = df.groupby(['First Name', 'Middle Name','Last Name','Job Title','Active','Contractor'])
new_data = grouped['Update Date'].agg(np.max).to_frame().reset_index()
をしかし、その後の最大を取るすべての列でグループ化するよりも、これを行うためのより良い方法が存在しなければなりません更新日。 特定の列でグループ化し、最大更新日を取得する場合はどうすればよいですか?しかし、グループ化されなかった他の列を取ることもできます。
たとえば、First、middle、およびlast nameでグループ化し、最新のレコードのレコード全体を取得します。
ありがとうございました!
を。私はここで、最初、中期、そして最後にその人を一意に識別すると仮定しています。同じ名前の人が2人いる場合や、名前の変更があった場合はどうなりますか?これらのことをまず考えなければなりません。 –
いずれにしても、グループ化して最新のレコードを取得する方法を見つける必要があります – Zander
将来的には、データフレームのコードバージョン( 'df = ....')を提供すれば、それをペーストします。写真はきれいに見えますが、あなたのようなデータフレームを扱うのには役立ちません。 – chthonicdaemon