2012-05-09 20 views
0

私は最新のtrunkバージョンのmahoutのPFP Growth実装をハープループクラスタの上に使用して、movielensデータセットの頻繁なパターンを判断しています。 前のステップでは、pfp増加アルゴリズムがその入力フォーマットを必要とするため、データセットをトランザクションのリストに変換しました。mahout PFPGrowthアルゴリズムの出力が間違っていますか?

しかし、私が手に出力項目1017のために、例えばのみ頻出パターン

1017([100,1017、50])

私は希望ある

予想外でありますその行にX> = 50の([1017]、X)のようなパターンも期待します。

Iはまた、例えば入力

1,2,3-

1,2,3-

1,3-

及びIが得る出力

ですTESTSET

1([1,3]、3)、([1]、3)、 ([1、3、2]、2)

2([1、3、2]、2)

3([1,3]、3)、([1、3、2] 、2)

を([1,2]、2)

などの不足しているパターンが間違っている何がありますか?

+0

私はPFPGrowthが確率的にしか完了しないと思いますか?多くの分散型 "ビッグデータ"アルゴリズムは近似的なものです。 –

+0

minSupportによって整理されていますか? –

+0

確率は非常に悪いです。 minSupportは、2のサポートに含まれるパターンがあることがわかるため、理由ではありません。アルゴリズムショーンを実装しましたか?私はそれを私の学士論文に使う必要があります。私はpfpの成長を伸ばそうとしています。追加ステップとして、最初にmovielensデータセットをトランザクションのリストに変換し、pfp成長ステップを実行してから、別のmap/reduceステップを実行してサポートと信頼の値を含むすべての関連ルールを抽出します。 – Chris

答えて

0

私は論文とコードを読みましたが、PFPアルゴリズムが正しくないようです。なぜ誰もそれを実現していないのだろうと私は思っています。

FP-Growthについて既に知っていて、このペーパーとコードを読むのに数時間かかることがあります。

関連する問題