2017-07-07 9 views
1

元のデータフレーム(データフレーム1)の行を含むpandasデータフレーム(データフレーム2)を入力しようとしています。私は、値名は、前の行で発生した行を削除したい値ごとに1行しかない新しいデータフレームを作成する

Ref Number Name 
1   Alpha 
2   Alpha 
3   Alpha 
4   Alpha 
5   Beta 
6   Beta 
7   Beta 
8   Charlie 

:私は以下のモックのデータフレーム1を作成しました。私。データフレーム2は次のようになります

Ref Number Name 
1   Alpha 
5   Beta 
8   Charlie 

この場合、Ref番号は重要ではありません。私の作業ファイルでは、何かを指定する列を追加してから、ある機能を適用するときにその列を参照する予定です。

パンダでどうやったらいいですか?私は〜5000行のCSVを持っており、〜1000で2番目のデータフレームに制限したいと思います。重複を見つけるためのコラムNameを指定すると

+0

あなたが「参考番号は関係ない」とはどういう意味ですか?それは冗長ですか?その場合、表形式を気にするのはなぜですか? set(df ["Name"]) 'という値のセットが必要です。 – Denziloe

答えて

1

使用drop_duplicates

df = df.drop_duplicates('Name') 
print (df) 
    Ref Number  Name 
0   1 Alpha 
4   5  Beta 
7   8 Charlie 
+0

ありがとう!それを追加しました! – christaylor

+9

私たちはまともな[重複](https://stackoverflow.com/search?q=df.drop_duplicates)を見つけることができるはずです.. – DSM

関連する問題