でクリーン/文字列が一貫作ります。これらは会社名であり、これらのほとんどは手動で入力されたため、タイプミスや表現形式が異なります。は、私が「汚れ」の文字列の列を持つデータセットで働いているパンダ
company_name
big compnay
big company
big company inc.
smll compny
small company
small inc.
私は以下のようなものに上記の列を編集しようとしています:
company_name
big company
big company
big company
small company
small company
small company
データポイントの数を手動でクリーニングすることができるものよりもはるかに大きいデータセットの列には、次のようになります。私は本当に助言/助言/アドバイスを感謝します。私はfuzzywuzzy
のようなモジュールで作業しようとしましたが、私は上記の問題に対処する最善の方法を理解できませんでした。
ありがとうございました。
を私はパンダを思ういけない、それに対処するための機能が組み込まれています。あなたはそれを扱うために、文字マップのための関数を作成することができますか、または文字ベクトルと文字の順序を考慮する距離ベクトルメソッド –
この演習の目的は何ですか? 「汚い」データから「クリーン」データへのマッピング例を表示できますか? –
@JijoJoseそうですね、私は現時点でそれに取り組んでいます。それは私がちょうどおかげで...うーん –