私は文字列のリストを持っています。 ['Apple', 'Appl','Elephnt', 'Elephant']
。この文字列のリストを異なるグループ、つまり['Apple', 'Elephnt']
に折りたたむ必要があります。Python - Collapse文字列グループ
同じグループに属している必要がある文字列の基準は、一致率が80%を超えることに基づいています。 AppleとApplは88%のマッチを共有し、ElephntとElephantは93%のマッチを共有します。
def similar(a, b):
return SequenceMatcher(None, a, b).ratio()
機能similar
は、2つの文字列の一致率を計算するために使用されます。 上記の関数を使用してこの折り畳みのグループ分けを計算するにはどうすればよいですか?
これは「パンダ」とどのように関連していますか? –
あなたはどのようにしてグループ代表を選んだのですか?それは最初のリストのグループからの単語の最初の出現ですか? – randomir