2017-08-23 14 views
0

私は非常に大きなデータフレームを持っています。私は実行すると:df=df.drop_duplicates()を私は次のエラーを取得する:Python/Pandas - drop_duplicates ValueError

ValueError: Buffer has wrong number of dimensions (expected 1, got 2) 

私はdf.loc[:10].drop_duplicates()それすでにバグ

を実行した場合、誰がそれを引き起こす可能性が何を知っていますか? 、私はいくつかの一般的な考えを与えるつもりだデータフレームの詳細を知らなくても

            Razao_social Razao_social \ 
business_id                  

17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
17            MULTIGRAIN S.A.  Sao Paulo 
38   BRASILAGRO - COMPANHIA BRASILEIRA DE PROPRIEDA...  Sao Paulo 
38   BRASILAGRO - COMPANHIA BRASILEIRA DE PROPRIEDA...  Sao Paulo 
71         SECURITAS GARANTIAS S.A.  Sao Paulo 
71         SECURITAS GARANTIAS S.A.  Sao Paulo 
71         SECURITAS GARANTIAS S.A.  Sao Paulo 
71         SECURITAS GARANTIAS S.A.  Sao Paulo 
+1

これを小さなデータのサブセットで再現できますか? – piRSquared

+1

私たちはデータのサブセットを持っていないので、このポストをチェックし、役立つかどうか確認してください:https://stackoverflow.com/questions/35888189/drop-duplicate-in-multiindex-dataframe-in-pandas – Vico

答えて

0

EDIT

データフレームは、次のようになります を - パンダの既知のバグがありました0.18(https://github.com/pandas-dev/pandas/issues/13393)、datetime64データ型を含むMultiIndexesでバッファ値エラーが発生しました。このタイプのあなたのコラムの1つですか? - いずれかの列に重複名がありますか?私はこれが起こるはずではないことを知っていますが、そうしています。 - すべての列にわたって重複を探す必要があるか、または列のサブセットで十分ですか?メソッド呼び出しでサブセット=オプションを使用してみてください。

Vicoの回答が役に立つかもしれませんが、非常に大きなデータフレームでは、初期データフレームと削除された重複データフレームの両方を転置すると、割り当てることができる以上のリソースになる可能性があります。

+1

問題は重複する列名でした!アドバイスをありがとう! – abutremutante