数値とテキスト機能を含むデータセットの予測モデル(または分類)を作成しようとしています Tf-IdfVectorizerを使用して、テキスト列をリストに変換することができました 各セルテキスト列には、 [0.0 0.3567 0.0 0.0]
(カンマなし)などの浮動小数点数のリストがあります。 ターゲット機能はクラスのセットです。各行は、テキストと数値データによるマルチクラス予測
[a, b, c, 1]
[1, d]
[]
のように複数の値を持つことができます。私のモデルが分類予測を行うように対象変数をどのように前処理できますか?私はラベルのエンコーディングを試みましたが、各行に対して新しいエンコーディングを作成して、同じ整数が異なる行の異なるクラスにエンコードされるようにします。
特定のしきい値を超える各行のすべての予測を受け入れる予定です。これもサポートしているモデルはありますか? 事前に多くの感謝
これは複数ラベルの分類問題です。ターゲット上で[MultilabelBinarizer](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html)を試し、[ここからアルゴリズムを使用する](http://scikit-learn.org /stable/modules/multiclass.html#multiclass-and-multilabel-algorithms)を参照してください。 –
@VivekKumarので、1Dリストではなく、クラシファイアの(x、y)メソッドに合うように行列を渡すだけですか? (y変数として) – emrahozkan
はい、そうです。コードと共にXとYのサンプル情報を追加してください。実際の例を挙げてください。 –