2016-04-18 11 views
-1

私はRapidminerを使用している学生で、YummlyのWhat's Cookingデータセット(https://www.kaggle.com/c/whats-cooking/data)を使ってプロジェクトを行っています。データセットには20種類の料理タイプ(イタリア語、中国語、インド語など)があります。テキストファイルの関連ルール

私たちの目標は、料理の成分リストを分析することによって、将来の料理の料理タイプを識別するデータマイニングモデルを開発することです。私たちはこれを行うための関連ルールを使用しています。しかし、私は「ルールが見つからない」ということを続けており、理由は分かりません。私はこれが私の属性がテキストとしてフォーマットされ、名義のバイナリ演算子を使用しないことと関係があると考えていますが、それを修正する方法がわかりません。 >選択した属性 - - > FPの成長 -

現在の私のプロセスは....のような

データを検索します>協会が

ルール作成、あなたは助けることはできますか?

答えて

0

FP-Growth演算子のドキュメントによれば、サンプルセットのすべての属性は、二項式である必要があります。

私はkaggleにアカウントを登録したくないので直接データを見ていないので、フォーマットがどうなっているのかは分かりませんが、おそらくラベルとしての料理の種類、そして残りの属性のそれぞれが、1つまたは複数のレシピに含まれる各成分を表すようにします。各料理は、成分が使用されている場合は列に1、使用されていない場合は0になります。 (データの元のフォーマットに応じて、それがテキストであると言われているので、テキスト処理拡張をチェックアウトして、先ほど説明したようなサンプルセットを作成することができます)。次に、0と1をFP-Growthを使用できるはずです。