パンダを使用したデータのクリーニングに苦労しています。私は、データフレームのZIP、State、Cityの各列(添付)に取り組む必要があります。パンダを使用して列を分割し、他の列の既存の値に追加します。
これは、データを垣間見るです: ジップ列のみジップ番号が含まれている必要があり、状態欄のみ2桁の状態コードを持っている必要があり、市が持っている必要があります:私は直面しています
City State ZIP
0 PEARLAND TX 77584
1 HOT SPRINGS AR 7191
2 PALMDALE CA 93551
3 JONESBOROY AR 72401
4 WATSONVILLE CA 95076
5 SACRAMENTO UCA 95823
6 AGOURAT HILLS CA 91301
7 JSAN DIEGO CA 92114
8 NEW PORT RICHEY FL 34655
9 BURBANK CA 91501
チャレンジ有効な都市名。例えば
:
City State ZIP
6 AGOURAT HILLS CA 91301
7 JSAN DIEGO CA 92114
8 NEW PORT RICHEY FL 34655
はする必要があります -
City State ZIP
6 AGOURAT HILLS CA 91301
7 JSAN DIEGO CA 92114
8 NEW PORT RICHEY FL 34655
だから、誰がどのように私は、この使用してパンダのデータフレームを達成することができます私を助けることができますか?
生の入力とは何ですか?あなたが最初の構文解析で間違いを犯した可能性があり、もう一歩前進することは良いことです。このアドレス解析ライブラリをチェックアウトしてください:https://github.com/datamade/usaddress –
入力として11列のcsvファイルを読んでいます。 RecID、FirstName、MiddleName、LastName、住所、市区町村、州、ZIP、POBox、SSN、DOB。そして、私は上記の3つの列の問題に直面しているこのデータをきれいにするはずです。 –