私はこのようになりますDF持っている:私は、グループごとに行いたいのですがどのような検索類似したグループ別の列の値の交点に基づいて
Group Attribute
Cheese Dairy
Cheese Food
Cheese Curd
Cow Dairy
Cow Food
Cow Animal
Cow Hair
Cow Stomachs
Yogurt Dairy
Yogurt Food
Yogurt Curd
Yogurt Fruity
が、それは次のように、ほとんどのグループを見つけることですが属性の共通部分に基づいています。私がしたい最後のフォームは次のとおりです:
Group TotalCount LikeGroup CommonWords PCT
Cheese 3 Yogurt 3 100.0
Cow 5 Cheese 2 40.0
Yogurt 4 Cheese 4 75.0
これは1つの質問でたくさん質問するかもしれないことがわかります。私はそれを多用することができますが、ただ一つのグループと他のグループとの間でさえも、属性の交差の数を得ることは本当に失われています。私が正しい方向に私を送るチーズとヨーグルトの交差数を見つけることができれば。
データフレーム内で実行できますか?私はいくつかのリストを作成し、すべてのペアのリストの間で交差を行い、新しいリストの長さを使ってパーセンテージを得ることができます。ヨーグルトのために例えば
、:
>>>Yogurt = ['Dairy','Food','Curd','Fruity']
>>>Cheese = ['Dairy','Food','Curd']
>>>Yogurt_Cheese = len(list(set(Yogurt) & set(Cheese)))/len(Yogurt)
0.75
>>>Yogurt = ['Dairy','Food','Curd','Fruity']
>>>Cow = ['Dairy','Food','Animal','Hair','Stomachs']
>>>Yogurt_Cow = len(list(set(Yogurt) & set(Cow)))/len(Yogurt)
0.5
>>>max(Yogurt_Cheese,Yogurt_Cow)
0.75
これはすべてのグループの一般的な単語の割合を示していますが、私はここから簡単に行くことができます。これは私が求めていたものよりも有用かもしれないと思います。どうもありがとう。 –
問題ありません。誰かが似たような質問をした場合には、その答えを受け入れるべきです;) – Nemo