私はラベルエンコーダを使用して、カテゴリデータを数値に変換しています。ラベルエンコーダのエンコーディングの欠損値
LabelEncoderは欠損値をどのように処理しますか?
from sklearn.preprocessing import LabelEncoder
import pandas as pd
import numpy as np
a = pd.DataFrame(['A','B','C',np.nan,'D','A'])
le = LabelEncoder()
le.fit_transform(a)
は出力:
array([1, 2, 3, 0, 4, 1])
上記の例では、ラベルエンコーダは、カテゴリにNaN値を変更しました。どのカテゴリが欠損値を表しているかはどのようにわかりますか?
だから、ダミーの値として「はNaNを」コーディングすることでしょうか?私は同じ問題を抱えていますが、線形回帰に帰属する値を使用します。 –