1

フィーチャエンジニアリングでKaggleのfill nullメソッドを調べました。 一部のプレイヤーは、NAに別のオブジェクト値を入力します。フィーチャ・エンジニアリングのオブジェクト属性にNULL値を入力する方法は?

たとえば、性別欄に「男性」、「女性」、およびNA値があります。メソッドは、NAに 'Middle'のような別のオブジェクト値を入力します。それ以降は、セックス属性をヌルなしで処理し、パンダはヌルを検出しません。

私は方法が実際にモデルのパフォーマンスや優れた機能エンジニアリングを学ぶマシンに良い影響を与えていることを知りたいですか? それ以外にも、データセットの知識のない発見の後、NAを記入する他の良い方法がありますか?

答えて

2

まず、モデルがNA(xgboostなど)を管理できるかどうかによって異なります。 第二には、この質問について全体文学があり

(落ち込んで男のようにタスクをスキップする可能性が高い)行動の脱落を説明しています。行うための主な方法は以下のとおりです。

  1. 行だけ
  2. が欠落データを記入し、にいくつかのエラーを追加代替品と(中央値、最も見られた値...)
  3. を欠落データを埋めるドロップあなたはさらに行くために弱々しいあればだからここ

、あなたはNAのままにしてxgboostを使用し、uncomplete行を落としたり、いくつかの勧告

男性と女性の間で最も頻繁に価値を置くことができ、次のいずれか

  1. てみ件のデータが
  2. は、溶液の感度分析を行って不足している理由を理解するには、それは主にあなたのデータに依存
0

を選びました。 しかし、あなたがやることができ、動作するかどうかを確認することはまだありません。

1.行数に比べて欠損値が少ない場合は、削除する方が良いでしょう。

2.大きな欠損値がある場合は、 "IsMissing"(他の人はNULL 0の場合)という機能を作成してください。

3.多くのデータがあり、その機能が本当に重要であるとわかった場合は、列車データを使用して男性/女性を予測するモデルを訓練することができます。次に、Null値の行をその値を予測する(男性/女性)。

これはすべての創造性とロジックについてです。上記の最後の方法では、NULL値には2つの値(M/F)しかないと仮定しているので、実際の仮説はうまくいきませんそうでないかもしれない。

さまざまな戦術で遊んで、自分のデータに適したものを見てください。

希望すると助かります!

関連する問題