2017-02-04 4 views
0

自分のデータセットでクラスタリングアルゴリズムを実行しようとしています。私のデータセットはパケット(ソースIP、宛先、ポート、クラスラベル)のセットです。これらのデータを公称データから数値データに変換したい。これらのデータを変換するための適切なテクニックは何ですか?名目を数値データに変換しますか?

答えて

0

ホットコード化を実行するのが普通の方法です。これは数値データを明らかにエンコードしますが、いくつかの問題があります。

  1. 次元性が向上しました。これはしばしばスケーラビリティと差別の問題を引き起こします(ポイント間の距離があまりにも似ている)
  2. 正規化と重み付けの問題。こうした最小 - 最大スケーリングおよび標準化などの典型的な標準化戦略、必要に応じて動作しません」
  3. 相関が
  4. 属性新しい属性の取り扱いは
  5. 変数は離散的な値になります。 k-meansのような多くのアルゴリズムでは、連続の属性が正常に動作する必要があります。
  6. 解釈上の問題。例えば。クラスターセンターはしばしば元の空間に意味のある方法で戻ってマッピングされません。
関連する問題