Python/Pandas - drop_duplicates ValueError

私は非常に大きなデータフレームを持っています。私は実行すると：df=df.drop_duplicates()を私は次のエラーを取得する：Python/Pandas - drop_duplicates ValueError

ValueError: Buffer has wrong number of dimensions (expected 1, got 2)

私はdf.loc[:10].drop_duplicates()それすでにバグ

を実行した場合、誰がそれを引き起こす可能性が何を知っていますか？、私はいくつかの一般的な考えを与えるつもりだデータフレームの詳細を知らなくても

            Razao_social Razao_social \ 
business_id                  

17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
38   BRASILAGRO - COMPANHIA BRASILEIRA DE PROPRIEDA...  Sao Paulo 
38   BRASILAGRO - COMPANHIA BRASILEIRA DE PROPRIEDA...  Sao Paulo 
71         SECURITAS GARANTIAS S.A.  Sao Paulo 
71         SECURITAS GARANTIAS S.A.  Sao Paulo 
71         SECURITAS GARANTIAS S.A.  Sao Paulo 
71         SECURITAS GARANTIAS S.A.  Sao Paulo

出典

2017-08-23 abutremutante

これを小さなデータのサブセットで再現できますか？ – piRSquared

私たちはデータのサブセットを持っていないので、このポストをチェックし、役立つかどうか確認してください：https://stackoverflow.com/questions/35888189/drop-duplicate-in-multiindex-dataframe-in-pandas – Vico

：

EDIT

データフレームは、次のようになりますを - パンダの既知のバグがありました0.18（https://github.com/pandas-dev/pandas/issues/13393）、datetime64データ型を含むMultiIndexesでバッファ値エラーが発生しました。このタイプのあなたのコラムの1つですか？ - いずれかの列に重複名がありますか？私はこれが起こるはずではないことを知っていますが、そうしています。 - すべての列にわたって重複を探す必要があるか、または列のサブセットで十分ですか？メソッド呼び出しでサブセット=オプションを使用してみてください。

Vicoの回答が役に立つかもしれませんが、非常に大きなデータフレームでは、初期データフレームと削除された重複データフレームの両方を転置すると、割り当てることができる以上のリソースになる可能性があります。

出典

2017-08-23 22:02:45 MisterJT

問題は重複する列名でした！アドバイスをありがとう！ – abutremutante

Python/Pandas - drop_duplicates ValueError

答えて

関連する問題