一般的な質問データセットを作成するときには、私は常にカテゴリ的な機能を自分自身に変更しました。SKLearnのダミー変数
たとえば、1つのフィーチャに5つのカテゴリがあると、数字1,2,3,4,5のフィーチャが1つ表示されます。
Pandasでダミー変数を作成すると、0または1の値を持ついくつかの機能が得られます。後者はベストプラクティスですか、それとも趣味の問題ですか?私のモデルでは、これは精度には影響しないので、試行錯誤はこのような状況で答えを提供しません。
一般的な質問データセットを作成するときには、私は常にカテゴリ的な機能を自分自身に変更しました。SKLearnのダミー変数
たとえば、1つのフィーチャに5つのカテゴリがあると、数字1,2,3,4,5のフィーチャが1つ表示されます。
Pandasでダミー変数を作成すると、0または1の値を持ついくつかの機能が得られます。後者はベストプラクティスですか、それとも趣味の問題ですか?私のモデルでは、これは精度には影響しないので、試行錯誤はこのような状況で答えを提供しません。
変換しようとしているデータによって異なります。 slow
、medium
、fast
のようなオリジンデータの場合は、1,2 and 3
のような数字に変換するのが理にかなっています。これは、ある種の順序と順序があるように見えるからです。しかし、都市名のようなデータがある場合は、この方法を使用することはできません。不都合な都市間のシーケンスの関係を不必要に作成するためです。例えば
次のマッピングを行う場合:
"New York" - 1
"London" - 2
"Moscow" - 3
"Beijing" - 4
を想定New York
等London
未満の値を持つMLアルゴリズムは扱いますので、これがあるように、あなたは、異なる都市間の新しい関係を導入順序としての数字と順序が重要です(都市の名前には当てはまりません)。したがって、データとエンコード方法によって異なります。
this blog postでさらにエンコード手法を確認できます。
[CrossValidatedに関する関連する質問](https://stats.stackexchange.com/questions/115049/why-do-we-need-to-dummy-code-categorical-variables)(実際には、そのような質問)。 – sascha
ありがとう、役に立つリンク。 –