データセット内でMLアルゴリズムを適用するにはデータを数値に事前処理する必要がありますが、どのように変換する。ここでは例を行く:文字列の類似性に基づいた数値へのプリプロセス文字列の機械化
Feature -> Value I would like to transform to (example):
X Y Z foo -> 0.5
X Y Z bar -> 0.501
A B C foo -> 4.1
W B C foo -> 5
基本的に文字列が出てくる最初の言葉に大きな重みを与えて、その文字列は、ほぼ同一であった場合は、この数は他の数字には本当に近いだろうユニークな実数、変身うまずString上で
私の質問は、これを解決するための既存のアルゴリズムがありますか?
1次元空間に高次元の空間を埋め込むように求めています。これは、大体の場合を除いて通常不可能です。指針についてはhttps://en.wikipedia.org/wiki/Nonlinear_dimensionality_reductionを参照してください。距離のメトリックを決定する必要もあります。 –