私は3列と80.000.000行を持つpandasを使ってPythonでDataFrameを持っています。PythonでAprioriアルゴリズムを実行する2.7
{event_id、device_id、category}の列は次のとおりです。 here is the first 5 rows of my df
各デバイスには多くのイベントがあり、各イベントには複数のカテゴリがあります。
Aprioriアルゴリズムを実行して、一緒に見えるカテゴリを見つけたいと思っています。
私の考えは、リスト[[]]のリストを作成して、各デバイスの同じイベントにあるカテゴリを保存することです。 [( 'a')、( 'a'、 'b')( 'd')、( 's'、 'a'、b ')]リストをアルゴリズムへのトランザクションとして与える。 リストのリストを作成するのに助けが必要です。
あなたが良いアイデアを持っていれば、私がPythonで新しくなったから教えてください。これが私が見つけた唯一の方法でした。
あなたの方法を試してみてから、コードを表示してください。 – Nocturno
データフレームからリストのリストを作成するためのアドバイスはありますか? –