私は都市名と犯罪数のデータセットを持っています。データは「newyork」、「new york us」、「new york city」、「manhattan new york」などのように都市名が「new york」のように汚れています。どのようにこれらをすべてグループ化できますか都市を一緒にして犯罪を集める?ほぼ同じ文字列でグループ化
Pythonで文字列と一致する「difflib」パッケージを試してみましたが、スコアが得られました。旨く動きません。私はまた、Pythonでジオコード・パッケージを試しました。それはAPIにアクセスできる回数に制限があり、うまく動作しません。助言がありますか?
したがって、データが汚れていると、「ニューヨーク」が正しく書き込まれていることもわかりません。つまり、「nwe yrok」などと綴ることもできますか? – rocksteady
[this](https://stackoverflow.com/questions/31642940/finding-if-two-strings-are-almost-similar?rq=1)何かがありますか? – rocksteady