私は2つのCSVを持っています。一つは、政治家のための寄付金についてです:各行は寄付であり、各ラインは、ドナーの会社とその会社の連邦政府登録番号の名前がある(CPF_CNPJ_doador - 国の各企業のためのユニークな)をパンダで繰り返し値を取り除くにはどうすればいいですか?
CPF_CNPJ_doador Nome_doador Valor
73668675000187 CWVGRAFICA EDITORA E BAZAR EIRELI LTDA ME 1000,00
83647909000163 CARBONIFERA CRICIUMA S/A 1750,00
10731057000114 HAROLDO AZEVEDO CONSTRUÇÕES LTDA 100,00
...
他CSVには環境不規則な企業があります。あなたは、その会社の会社名と連邦登録番号(CPF_CNPJ - 国内の各社固有のもの)を含むいくつかのデータを持っています。 しかし同社は、このCSVで複数回表示されることがあります - それは私がこれら二つのCSVのパンダマージ(Pythonの3)製の
Nome_Razao_Social CPF_CNPJ
Carajas Madeiras Industria e Comercio Ltda - Me 02579504000214
Carbo Gás Ltda 03828695000435
Carbomil Química S/A 07645062000108
Carbomil Química S/A 07645062000108
...
例えば不規則で複数の関連会社を有していてもよい:
ibama_doadores = pd.merge(eleitos_d_doadores, ibama, left_on = 'CPF_CNPJ_doador', right_on = 'CPF_CNPJ')
を問題は、コマンドが両方のCSVでの結果の一致を探すということですが、2番目のCSV CPF_CNPJ_doadorが複数回表示されるたびに、行を繰り返し:
CPF_CNPJ_doador Nome_doador_originario
7645062000108.0 CARBOMIL QUIMICA S A
7645062000108.0 CARBOMIL QUIMICA S A
7645062000108.0 CARBOMIL QUIMICA S A
...
繰り返し値を排除するマージタイプはありますか?アイテムは、第二のデータベースで検索した場合
「CPF_CNPJ_doador」または「CPF_CNPJ」が重複しているか、またはその両方に問題があります。 – jezrael
両方ともCSVで複製することができます(政治家は同じ会社から異なる日付に寄付を受けることができます)。 –
しかし、私は、たとえ彼らが重複した会社の行から来ているとしても、寄付のすべての行を得たいと思っています。しかし、彼らは第2のCSVに存在しなければならない –