2017-10-30 12 views
-2

私は時系列分類で始まり、トレーニングセットをどのように構築するべきかを理解するのに問題があります。私の現在のデータは、次のようになります。時系列分類のためのデータセットを構築するにはどうすればいいですか?

Timestamp  User ID Feature 1 Feature 2 ... Feature N target 
2002-10-30   1  0   0  ...  1  0 
2002-10-31   2  0   1  ...  1  0 
... 
... 
2017-10-30   1  0   0  ...  0  1 
2017-10-31   2  0   1  ...  0  0 

機能が与えられたUser IDのための時間tで記録されたワンホットエンコードされたテキスト機能、あります。ターゲットは、時刻に発生/発生していないイベントです。t。新しい予定時刻tで、データセットのUser IDsすべての新しい機能があれば、このイベントを検出します。

私はthis paperから、これをモデル化する1つの方法は「スライディングウィンドウクラシファイア」を使用していることを理解しました。

いつでもtのために、私はから一緒に機能を集約し、「イベントがt, t+1, ... t+nのいずれかで発生したかではない」ことになる、より柔軟な目標を設定することができます。このような分類子を作成する正しい方法ですか?

私はまた、more recent approachesのように、「リカレントニューラルネットワークアーキテクチャ(LSTM)」と考えています。どのように私は上記のデータセットからこのモデルを供給するためのトレーニングセットを構築することができますか?

ps:私はscikit-learn/Kerasを使って分類器を構築する予定です。

あなたの時間と回答に事前に感謝します。

+0

で処理することができスペクトログラムを構築することができます(ターゲットがあります0または1)。ですから、入力とターゲットの関係を見つけなければなりません。データの他の前処理は必要ありません。あなたはこれに複数のテクニックを使用することができます:ニューラルネットワーク、遺伝的プログラミングなど... –

答えて

0

あなたが時系列で作業できるようにいくつかの方法があります:いくつかのウィンドウで

  1. わかりやすい使用LSTM、あなたのデータは、このような形状を持つことになりますので(バッチ、窓、data_features_dimensions ...)
  2. あなたはConv1Dや他の1Dメソッドを使うことができるので、いくつかのパターンを見つけることができます。
  3. ウィンドウからマトリックスを構築できます。これは最初の視覚ではあまり論理的ではありませんが、LSTMのように何らかの方法でシフトされたパターンを見つけることができます。
  4. あなたは信号として使用する時系列を扱い、オーディオ処理のように同じテクニクスを使用して、たとえば、あなたが私はあなたが単純なバイナリ分類問題を持って表示されるものとCNN
関連する問題