0

数値とテキスト機能を含むデータセットの予測モデル(または分類)を作成しようとしています Tf-IdfVectorizerを使用して、テキスト列をリストに変換することができました 各セルテキスト列には、 [0.0 0.3567 0.0 0.0](カンマなし)などの浮動小数点数のリストがあります。 ターゲット機能はクラスのセットです。各行は、テキストと数値データによるマルチクラス予測

[a, b, c, 1] 
[1, d] 
[] 

のように複数の値を持つことができます。私のモデルが分類予測を行うように対象変数をどのように前処理できますか?私はラベルのエンコーディングを試みましたが、各行に対して新しいエンコーディングを作成して、同じ整数が異なる行の異なるクラスにエンコードされるようにします。

特定のしきい値を超える各行のすべての予測を受け入れる予定です。これもサポートしているモデルはありますか? 事前に多くの感謝

+0

これは複数ラベルの分類問題です。ターゲット上で[MultilabelBinarizer](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html)を試し、[ここからアルゴリズムを使用する](http://scikit-learn.org /stable/modules/multiclass.html#multiclass-and-multilabel-algorithms)を参照してください。 –

+0

@VivekKumarので、1Dリストではなく、クラシファイアの(x、y)メソッドに合うように行列を渡すだけですか? (y変数として) – emrahozkan

+0

はい、そうです。コードと共にXとYのサンプル情報を追加してください。実際の例を挙げてください。 –

答えて

0

1つの方法は、各タグに対して個別に分類器を訓練することです(各サンプルに特定のタグがあるかどうかはバイナリ分類になります)。もう一つのアイデアは、タグを二値化し、マルチクラスの分類を行いますが、最後にsoftmax関数を削除します(ログの確率を1に正規化します)。そして、各タグに対してロジスティック損失を適用します。

ケラスはここでかなり使いやすいでしょう。

+0

私は約30のタグを持っているので、かなり高価になるでしょう。 – emrahozkan

+0

@emrahozkanそれは主にあなたのアルゴリズムと機能/サンプルの数に依存します。 30の目標変数はそれほど多くはありません。 –

関連する問題