私はいくつかの言葉をクラスターにしようとしています(車のブランドを取りましょう)。そのためにはk-meansやk-medoidsを使うことができないので、SklearnのAffinity Propagationを使ってみました。そして私は距離libからのlevenshtein
またはpyxdameraulevenshtein
libからのdamerau_levenshtein_distance
でそれを使用しています。ここ言葉のクラスタリング
しかし、これらの指標は、私がまさに必要なものではありません。たとえば、MERCEDES-BENZとMERCEDESの距離は5で、VOLVOとFIATと同じです。 VERVOとFIATよりもMERCEDES-BENZとMERCEDESの類似度スコアが高い指標をいくつか知っていますか?
おかげで、 Djokx