1

私はこのタイプのデータセットを持っています。さまざまなフィーチャディメンションを持つデータセットを使用してsklearnクラシファイアをトレーニングするにはどうすればよいですか?

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal 
------------------------------------------------------------------ 
    Bread  | Butter  |  -  |  -  | buttered bread 
    Avocado | Tomato  |  Garlic |  -  | Guacamloe 

私はそれでsklearnディシジョンツリー分類子を訓練したいが、私は私のデータセットの様々な特徴の次元に対処する方法がわかりません。理想的には、私は空のセルを無視することを望むでしょう。私は空のセルをナノに置き換えることを考えましたが、スクールはナノを受け入れません。 sklearnでこのようなデータセットを使用する方法はありますか?

+0

私はこの目的のために疎な行列を使うことができると信じています – mkaran

答えて

1

あなたは、このようなのようなベクトルとして、あなたのデータをエンコードする必要があります

(Avocado, Bread, Butter, Garlic, Tomato) 
(0,1,1,0,0) = 'Buttered Bread' 
(1,0,0,1,1) = 'Guacamloe' 

ベクトルの各要素は、特定の成分の存在を表しています。この形式のデータを任意の分類子に直接入力することができます。暗黙の順序付けに問題はありません。

関連する問題