私は私のデータフレームからいくつかのデータが、「国へ」の列に重複がある行だけを剪定しようとしている削除データ
マイデータフレームは次のようになります。
をdf.drop_duplicates(subset='To country', inplace=True)
そして、何が起こるかは、このです:
Year From country To country Points
0 2016 Albania Armenia 0
1 2016 Albania Armenia 2
2 2016 Albania Australia 12
Year From country To country Points
2129 2016 United Kingdom The Netherlands 0
2130 2016 United Kingdom Ukraine 10
2131 2016 United Kingdom Ukraine 5
[2132 rows x 4 columns]
私はそれでこれを試してみてください
Year From country To country Points
0 2016 Albania Armenia 0
2 2016 Albania Australia 12
4 2016 Albania Austria 0
Year From country To country Points
46 2016 Albania The Netherlands 0
48 2016 Albania Ukraine 0
50 2016 Albania United Kingdom 5
[50 rows x 4 columns]
これは、重複した 'To country'エントリを削除しますが、 'From country'列のすべての値も削除します。私は間違ったdrop_duplicates()を使用している必要がありますが、パンダのドキュメントは私がそれを期待している以上に落ちる理由を理解する助けにはなりませんか?
ああ。私は今、それが何をしているのか理解していますが、私はそれが私がしたいことをする方法を知らない。私が望むのは、各国の重複を削除することです。すなわち:国によって 年 0 2016アルバニアアルメニア0 2 2016アルバニアオーストラリア12国から国ポイントに 年 2129 2016イギリス・オランダ0 2130 2016イギリスウクライナ10 にそのような何かをポイント、私はコメントで読むことができることを願っています –
国の*ペア*ごとに重複していますか?例えば、 '(アルバニア、アルメニア)'は一度だけ起こっていますか?または列間の重複はありますか?のように、あなたはアルメニアを「To」と「From」の両方にしたくないのですか? –
そうですね、私はまだ国の列にすべての国があるようにしたいと思いますが、[From countries]列にある[To countries]列の重複値だけを取り除くだけです –