2017-03-07 15 views
1

私はケースデータのCSVファイルを扱っています。私はcase_numberという名前の列の1つに複数の大文字小文字の繰り返しがあるという問題が発生しています。削除される行に関連する情報を失うことなく複製を削除する方法はありますか?重複を扱うPython

つまり、すべての情報をcase_numberに割り当てられた1つのセルにマージします。

Here is an image of the CSV

+1

これまでに何を試みましたか?いくつかのコード例を挙げてください – Kewl

答えて

2

あなたのデータフレームを作成するためにpd.read_csv('filename.csv')を使用する必要がありますが、この単純化され、たとえば、私は辞書のうちの1を作成します:

import pandas as pd 
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']}) 
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index() 

出力:

x   y 
0 1 a, b, c, e 
1 2  d, f, g 

', 'を、文字列の間の任意の区切り記号に置き換えます。

+0

ありがとう、私はPythonには初めてです。たくさんのチュートリアルや練習をしたことがありますが、今はインターンとして、私は手を持たなくなりました。これらのスキルを適用しなければならないことは少し難しいですが、チャレンジングな自己が学ぶ最も良い方法です。 –

+0

@ VictorAguilar - 喜んで助けてください。このように多くのデータ処理をしているなら、Pandasは非常に役立ちます。私があなたの質問に答えたように感じるなら、あなたはそれを答えとしてチェックしていただければ幸いです。 – pshep123

関連する問題