2017-09-08 41 views
0

私はcsvファイルを持っていますが、それは別の機械学習アルゴリズムを使って訓練されるデータを準備しているので、欠落しているデータをその列の平均で置き換えます。最も頻繁に使用されている要素で置き換えるべきかパンダを使ってPythonでそれをやるのが最も簡単な理由は何ですか?カテゴリのデータがありませんpython

コード:

dataset = pd.read_csv('doc.csv') 
X = dataset.iloc[:, [2, 4, 5, 6, 7, 9,10 ,11]].values 
y = dataset.iloc[:, -1].values 

行番号2は、カテゴリデータが含まれています。

最初の行の値:

[3、 'S'、22.0、1、0、7.25、107722、2]あなたの質問のモデリング一部について

答えて

2

、あなたがしていますよかったら、CrossValidatedでそれを聞いてください。 データが不足しているレコードが多すぎる場合は、その列をすべて考慮から削除するだけです。 this StackOverflow postには、sci-kit学習のImputer()メソッドを含む優れた提案がいくつかあります。または、モデルに欠損データを処理させるだけです。欠落している列の値が「N」と呼ばれ、あなたには、いくつかの他のカテゴリ 'でそれらを交換していると仮定して、DataFrame.replace()方法

DataFrame.replace(
     to_replace=None, 
     value=None, 
     inplace=False, 
     limit=None, 
     regex=False, 
     method='pad', 
     axis=None) 

にあなたのデータセットの本の使用例を見て、列を置き換えるについて

S '(DataFrame.mode()メソッドを使用して見つけたもの)dataset[1].replace('N', 'S')

関連する問題