0

現在私の大学の特定のプロジェクトを運営しています。 私がこのプロジェクトでやっていることは、関連ルールマイニングを使ってクロスセリングモデルを構築することです。アソシエーションルールマイニング(信頼とリフト)

その結果、私はたくさんのルールを持っていましたが、どのようにランク付けするのがベストであるかわかりません。 Confidence=20% Lift= 5

オプション2:Confidence = 50% Lift = 2

私は自信が重要である知っているが、私はLiftを聞いたことがあるだけでなく、非常に重要である

オプション1があれば

どのオプションが良いだろう。私はより多くの持ち上げをするために何か自信を犠牲にしなければならないのでしょうか?それは目的が相関ルールマイニングのあるものに依存

+0

Umm。問題は面白いですが(私は解決策を知らない)、そのサイトはその背後にある科学ではなく、コーディングの問題に関するものです。しかし、人々が解決策を見つけたとき、私はそれについてもっと読んでみたいと思います。これを見つけた:http://analyticstrainings.com/?p=151 – pinegulf

答えて

0

は次のとおりです。

例えば:アイテムセット{(a, b, c)}: (800/100.000) * 100 = 0,8%

- 100.000 transactions' database 

- 2.000 tranasctions contain {(a, b)} 

- 800 transactions contain {(a, b, c)} 

サポート。

アイテムセットのサポートは、データベースのランダムトランザクションがアイテムセットのアイテムを含む頻度を示します。


アソシエーションルール{(a, b)} -> {(c)}: (800/2000) * 100 = 40%

アソシエーションルールの信頼性は、アソシエーションルールの結果を含むデータベースのランダムトランザクションに、アソシエーションルールの予告がどれだけ含まれるかを示します。


リフトアソシエーションルール{(a, b)} -> {(c)}: 40/((5.000/100.000) * 100) = 8

リフトは、関連ルールの期待信頼度に対する信頼度の比率です。関連ルールの信頼度は40%です。この文脈における予想される信頼は、これが増加しないトランザクションにおいて{(a, b)}が発生した場合、この取引においても{(c)}の偽造性が生じることを意味する。

{(c)}がデータベースの5.000トランザクションで発生する場合、予想される信頼度は(100.000/5.000) * 100 = 5%です。

アサーションルールのリフト値が1より大きい場合は、アソシエーションルールが有用であることを示します。 1以下のリフト値は、関連ルールが有用でないことを示します。この場合、それは前例のようであり、関連ルールの結果は互いに独立している。トランザクションがを保持していてそれが次に({c})を関連付けている場合、が偶然には({c})に繋がるという関連ルールの指示の有用性。

データベースの100.000トランザクションすべてに{(c)}が含まれている場合、{(c)}の期待値は(100.000/100.000) * 100 = 100%です。リフトは40/100 = 0,4です。これは1以下です。したがって、関連ルール{(a, b)} -> {(c)}は役に立ちません。 {(c)}はすべてのトランザクションにあります。取引に{(a, b)}がある場合は、いずれにしても{(c)}があります。協会の使用はありません。


ここで、サークルは終了します。関連ルールマイニングの目的によって異なります。余分な強い関連ルールを作成することが目的であれば、信頼は余分に高くなる必要があります。余分な有用な組合ルールを作成することが目的ならば、リフトはさらに高い必要があります。