2017-07-11 4 views
0

具体的には、の違いは何であるか「int'sと」numerical "タイプとは対照的にH2O扱いenumstringデータ型?例えばH2Oフロー:どのようにH2OフローUIの御馳走のデータ型は異なる

、私は機能分類器がトレーニング中にこれらのタイプをどのように扱うかの違いだろう何

x1=(1 of 10 possible favorite ice cream flavors (enum)) 

x2=(some random phrase (string)) 

x3=(some number (int)) 

を持つ入力サンプルを取るバイナリ分類器を持っていると言いますか?

h2oフローUIにデータをアップロードする際に、特定のデータタイプ(enumなど)を「数値」に変換するオプションがあります。これは、「enum」を「enum」(「numerical」タイプに変換しない)として残しているだけで、文字列と数字のマッピング以外のことが起こっていると思いますが、その違いは。

明確化 感謝:)

答えて

0

「列挙」タイプは、あなたがカテゴリの機能のために使用したいと思うエンコードの一種であり、高く評価されるだろう。カテゴリの機能が「enum」としてエンコードされている場合、Random ForestやGBMなどのツリーベースのアルゴリズムは、これらの機能を賢明に処理できます。他のほとんどのRFやGBMの実装では、(Kダミーカラムへの)カテゴリフィーチャを一気に拡張する必要がありますが、H2Oでは、ツリーベースのメソッドは拡張せずにこれらのフィーチャを使用できます。変数が処理される正確なwhayは、categorical_encoding引数を使用して制御できます。

あなたが順序付きカテゴリ変数を持っていれば、それを "int"としてエンコードしても問題ありませんが、モデルのパフォーマンスに与える影響はデータによって異なります。

「列挙型」列を「数値型」に変換すると、各カテゴリを整数で単純にエンコードすると、それらの数値がカテゴリを表すという考えが失われます(推奨しません)。

予測子のセットからその列を除外しない限り、H2Oでは "文字列"型を使用しないでください。テキストに「文字列」列を使用することは理にかなっていますが、そのテキストを解析(たとえばトークン化)して、予測子のセットに含まれる新しい数値または列挙型のフィーチャを生成する必要があります。

関連する問題