私はPythonとpandasを初めて使っています。Python Pandas csvファイルの重複を削除しないでください。
私は、たとえば、すべての行のためのいくつかのデータをcsvファイルを持っている想像してみて:
data1, data2, data3, data4
には見出し、単にデータが存在しない、と私は
場合、このようなファイル内の一部の行を削除する必要があります(row1.data3 and row1.data4) == (row2.data3 and row2.data4)
行全体が削除されます。
どうすれば実現できますか?
私はremove_duplicatesを使用しようとしましたが、見出しを付けずにそれを行う方法はわかりません。
歓声
remove_duplicatesの後にデータフレームをリセットしていますか?あなたがそれを求めない限り、remove_duplicatesはインプレースで動作しません。 見出しはあまり重要ではありません。行が別の行の複製であり、それらが同じデータ型である場合、remove_duplicatesはそれを削除する必要があります。 –
これまでのコードを教えてください。 –