さまざまなフィーチャディメンションを持つデータセットを使用してsklearnクラシファイアをトレーニングするにはどうすればよいですか？

私はこのタイプのデータセットを持っています。さまざまなフィーチャディメンションを持つデータセットを使用してsklearnクラシファイアをトレーニングするにはどうすればよいですか？

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal 
------------------------------------------------------------------ 
    Bread  | Butter  |  -  |  -  | buttered bread 
    Avocado | Tomato  |  Garlic |  -  | Guacamloe

私はそれでsklearnディシジョンツリー分類子を訓練したいが、私は私のデータセットの様々な特徴の次元に対処する方法がわかりません。理想的には、私は空のセルを無視することを望むでしょう。私は空のセルをナノに置き換えることを考えましたが、スクールはナノを受け入れません。 sklearnでこのようなデータセットを使用する方法はありますか？

出典

2017-06-16 SPA

私はこの目的のために疎な行列を使うことができると信じています – mkaran

あなたは、このようなのようなベクトルとして、あなたのデータをエンコードする必要があります

(Avocado, Bread, Butter, Garlic, Tomato) 
(0,1,1,0,0) = 'Buttered Bread' 
(1,0,0,1,1) = 'Guacamloe'

ベクトルの各要素は、特定の成分の存在を表しています。この形式のデータを任意の分類子に直接入力することができます。暗黙の順序付けに問題はありません。

出典

2017-06-16 15:15:55

さまざまなフィーチャディメンションを持つデータセットを使用してsklearnクラシファイアをトレーニングするにはどうすればよいですか？

答えて

関連する問題