2016-09-02 16 views
0

私は1000文字の7数字シーケンスのリストを持っており、どの数字の組み合わせが2から7までの数字が最も多いか知りたい。最も頻繁な数字の組み合わせを見つける

ので、例えば、このリストに:

1, 2, 3, 4, 5, 6, 7 
1, 2, 4, 5, 6, 8, 9 
1, 2, 9, 10, 12, 15, 27 

[1, 2][1, 2, 4]等3個のカテゴリ

のためのものになり2個のカテゴリで最もスコアの高い順になります

私は気分が悪くて、別のフレームワークがこれを助けてくれるかもしれませんが、私は統計を把握していません。

ありがとうございます!

+4

なぜ[[1,2,4]]が、 '[4,5,6]'? –

+0

@JohnColeman最後のリストには存在しません –

+1

7桁のシーケンスの大半に出現する可能性のある* n * * n *のさまざまな値に対してこれを行うには? –

答えて

1

目的を達成するために、データマイニングのアプローチを使用できます。頻出アイテムセットマイニングと呼ばれます。実際

、と仮定すると:(1、2、3、4、5、6、7例えば)、およびトランザクションが含ま

1, 2, 3, 4, 5, 6, 7 
1, 2, 4, 5, 6, 8, 9 
1, 2, 9, 10, 12, 15, 27 

トランザクションが行である、あなたのトランザクションデータベースでありますあなたの場合に整数である項目。目標は、最も頻繁な項目セット(すなわち、トランザクションデータベースの中で最も多く発生する項目/整数のセット)を決定することである。 pyminingはこの種のタスクを達成するためのPythonライブラリです(https://github.com/bartdag/pymining

+0

これを試したところ、うまくいきました。私は「頻出アイテムセットマイニング」の例をとり、サンプルデータを入れました。結果をソートした後、[1,2]は実際に3回カウントされます。 (私はあなたの答えを受け入れる前に、何か他のものが飛び出すのを待つ)。 – LaundroMat

関連する問題