言葉のクラスタリング

私はいくつかの言葉をクラスターにしようとしています（車のブランドを取りましょう）。そのためにはk-meansやk-medoidsを使うことができないので、SklearnのAffinity Propagationを使ってみました。そして私は距離libからのlevenshteinまたはpyxdameraulevenshtein libからのdamerau_levenshtein_distanceでそれを使用しています。ここ言葉のクラスタリング

例：https://stats.stackexchange.com/questions/123060/clustering-a-long-list-of-strings-words-into-similarity-groups

しかし、これらの指標は、私がまさに必要なものではありません。たとえば、MERCEDES-BENZとMERCEDESの距離は5で、VOLVOとFIATと同じです。 VERVOとFIATよりもMERCEDES-BENZとMERCEDESの類似度スコアが高い指標をいくつか知っていますか？

おかげで、 Djokx

出典

2017-06-27 Robin Fourcade