機能をベクトル化しようとすると面倒な問題に遭遇しました。データのベクトル化
- そのほとんどが数値である、100、33.3、1、0のような、など
- の一部が空で、提供されないを表している:私はこのような機能を持っています。
- 一部は「auto」です。つまり、コンテキストを適応します。
私の質問は、この機能をベクトルに効果的にエンコードする方法です。私ができることの1つは、すべての数値をカテゴリ別に扱うことですが、それは、同様のデータポイントを表すのには適していない、特徴空間の爆発を招くことになります。私は何をすべきか?
ありがとうございます!
---私が使用しているアルゴリズム/モデルは---
それはLSTM(ロング短期記憶)ニューラルネットワークです。現在、私は次のようなアプローチで行くよ、私は2つのデータポイントを持っていると言う:だからCOL1-bが、それは自動だかどうかを表します col1-a col1-b entry1: 1.0 0 entry2: dummy 1
: col1 entry1: 1.0 entry2: auto
にエンコードされます。ダミーの数値は、すべての数値データの中央値になります。これは使えますか?
また、それぞれの数値にはユニットが関連付けられていますので、 'px'、 'pt'のような値を持つ別のカラムがあります。別の列?彼らは(数値+単位)に関連付けられているときには実際の意味を持ちますが、NNはそれらが異なる次元にある場合に通知できますか?
ありがとう、テイラー!私は問題を編集して、「11px」、「12pt」のようなもののベクトル化について尋ねました。これは今より意味がありますか? – MrW
@MrW私の編集を参照してください。 –
ありがとう、テイラー! – MrW