2017-03-23 5 views
1

私は入力ファイルがcategories.txtで提供されているプロジェクトで作業しています。最初にmin-support 0.01ですべての長さ-1の頻繁なカテゴリを出力するように求められます。そして、すべての頻繁なカテゴリに設定します。カテゴリデータのAprioriアルゴリズム

目標は、たとえば、ファイル内の絶対的なサポート(カウント)で、以下のデータを書き込むことである:

2851:ファーストフード。レストラン

私はリストのリストなど、すべての私のデータを取得

data = [] 
with open("categories.txt") as file: 
for line in file: 
    line = line.replace("\n", "") 
    line = line.split(";") 
    data.append(line) 

私の問題は、私は彼らの絶対的なサポートを持つすべてのカテゴリのすべての組み合わせを見つけ、後者の場合に対処する方法がわからないということです(パーセンテージではサポートしていません)。私はPythonで良いAprioriライブラリを発見していない。

ありがとうございました。

+1

これは、話題にならない(ライブラリの推奨を求めている範囲で)か、広すぎる(重要な機械学習アルゴリズムの実装を求めている範囲で)。あなたの質問を編集して、話題に焦点を絞ってフォーカスを合わせてください。 [help/on-topic]を参照してください。 –

答えて

0

ここでのpythonで頻繁にアイテム集合マイニングライブラリを探してください。Mining Frequent Itemsets PY Library

しかし、私は頻繁に項目セットをマイニングのためのアプリオリアルゴリズムを使用しないように、あなたをお勧めします。他の頻繁な項目セットマイニングアルゴリズムに比べて遅いです。リンクされたライブラリで効率的で実装されているFP成長アルゴリズムを少なくともチェックしてください。

関連する問題