2017-07-31 10 views
-1

機械学習の分野では初めてです。 10人の電話通話履歴を分類しようとしています。序文のデータで分類する方法

電話の通話ログはsklearnからSVMと8700のログのこの種の訓練を受け、この

UserId  IsInboundCall Duration PhoneNumber(hashed) 
1   false   23   1011112222 
2   true    45   1033334444 


のように見えるが、結果を与える精度は88%

は、私はいくつかを持っていますこの結果に関する質問と
何らかの序数データ(電話番号など)を使用する適切な方法

  1. ハッシュされた電話番号を機能として使用しているかどうかはわかりませんが、このマルチクラス分類器の精度は悪くありません。ちょうど偶然ですか?
  2. not oridnalデータをフィーチャーとして使用するにはどうすればよいですか?
  3. この分類器はより1000のクラス(以上1000人のユーザ)を分類する必要がある場合、SVMは、まだそのような場合に動作しているのですか?

私には助言があります。おかげ

答えて

1

1)は、それが持っているどのくらいのインパクトの感覚を得るための機能として、電話番号なしでSVMを試してみてください。

2)順序データを避けるには、数値に変換するか、1のKアプローチを使用します。あなたが数0,1,2として、あるいは3つの機能(1,0,0), (0,1,0), (0,0,1)としてこれを表現することができ{IOS, Android, Blackberry}可能な値と電話OSのフィールドを追加したと言います。

3)SVMはまだ限り、データはほぼ直線的に分離可能であるように良い結果が得られます。これを実現するには、より多くの機能を追加し、別の機能空間にマップする必要があります(RBFカーネルが良いスタートです)。

関連する問題