2017-12-28 15 views

答えて

0

カテゴリ変数エンコーディングには、ダミー変数の作成とラベルエンコードによるエンコードの2種類があります。

ダミー変数の欠損値は、ダミー列の各束に対してヌルベクトルとして表示されます。ラベルエンコーディングの場合、それは特定のクラス(ラベル)であってもよい。

欠損値の問題を解決するには、平均(数値)またはモード(カテゴリ)を使用してそれらを代入できます。値がない場合は1、それ以外の場合は0を持つ追加の欠損値指示列を作成すると便利です。

転用によって、MLからの任意の分類子を使用することができる。 SVC(バイナリ分類があるため)を試し、単純なロジスティック回帰から始めましょう。

転用なしでのみ、XGBoostが役立ちます(データセットに欠損値があることが許されます)。

しかし、もう少し問題があります。テキストを前処理する必要があります。 NLPについてお読みください。

+0

sub.hsub_category、description、titleの機能を削除することはできますか?product.httpsの特定のカテゴリの性別を分類する必要があるためです://github.com/lakshmipriya04/py-sample – LPR

+0

できますか。しかし、それが間違って表示されている場合は、後でsub_sub_category、説明、タイトルを返すのは間違いではありません。 – avchauzov

+0

説明を見てください。時には、「女性」、「男性」、「女性」、「男性」があることがあります。これらのトークンは、「ショートモデル」が完璧でない場合に非常に役立ちます。 – avchauzov

関連する問題