Python/Scikit-learn GLMモデルでは、そのままカテゴリ変数を使用できますか?私はワンホットエンコーディングの代替を実現しています。このアプローチの私の問題は、変数全体を有意義にテストすることができなくなることです。私はエンコードされた変数(部分的です)だけをテストできます。Python/Scikitlearnのカテゴリ変数one-hotエンコーディングなし
なぜSASはPythonではなくそのような変数を処理できるのですか?お知らせ下さい。
Python/Scikit-learn GLMモデルでは、そのままカテゴリ変数を使用できますか?私はワンホットエンコーディングの代替を実現しています。このアプローチの私の問題は、変数全体を有意義にテストすることができなくなることです。私はエンコードされた変数(部分的です)だけをテストできます。Python/Scikitlearnのカテゴリ変数one-hotエンコーディングなし
なぜSASはPythonではなくそのような変数を処理できるのですか?お知らせ下さい。
これは実際に所有しているデータによって異なります。たとえば、low
、medium
、high
などのカテゴリ変数に順序を割り当てることができる場合は、1,2,3のような番号を割り当てることができます。ただし、順序がない場合は少し難解ですまったく。ワンホットエンコーディング以外にも、Helmert Coding Schemeを試すことができます。さらに分析するためにthis blog postを読むこともできます。様々な他の符号化方式は、カテゴリ変数のためsklearnでもあります。
あなたが他のCategorical Encoders in Sklearn hereについての詳細を読むことができます。
最終的には、SASが「ボンネットの下で」何をしているのかを理解する必要があります。コンピュータは、「カテゴリ」ではなく数値を扱います。 – dartdog