私の最初の列に基づいて重複を削除したい場合は、これを 'id'とみなしてください。私が削除する必要がある値は、完全なデータが最も少ないレコードです。例えばパンダとPythonを使用して重複を削除してください
下のスクリーンショットに示す4つのレコードを持っていると私は私の列IDに基づいて重複を削除したいです。ただし、私が削除したい複製は、他の列の値に依存します。たとえば、lnameは数字ではありません。それはNAでも空白でもない。したがって、この例では、中央の行を保持し、他のすべての重複を削除したいと考えています。
他のフィールドのクリーナー値に基づいて、最もクリーンに見えるレコードを保持することによって、重複を除去するスマートフィルターを実装する方法を教えてください。
私はPythonでパンダライブラリを探していました。いずれの方向にも感謝します。あなたはgrouped.apply
を使用することができ
data = pd.read_csv('x.csv');
data = (data.drop_duplicates(['id'], keep ='last'));
を参照してください。また、正確な基準は何ですか?また、期待される成果は何ですか?あなたは中央の行を保持したいと書いていますが、スクリーンショットに6行あります。あなたの制約をより具体的にし、[MCVE](https://stackoverflow.com/help/mcve)を投稿すると、応答時間が短縮されます。 –