2017-05-29 23 views
-1

分類問題で離散データと連続データをどのように扱うかについての方法論やアイデアがあるかどうかを質問します。機械学習:離散データと連続データを一緒に扱う方法

私の状況では、個別のデータを持つ独立した「バッチ」がたくさんあります。これはプロセス関連のデータなので、バッチごとに別々のポイントがあります。私は同じバッチで時間とともに変化するデータセットも持っています。今度は、すべてのバッチに多くの時間観測があります。データセットは以下のようになります。

Data Set 1 

Batch 1  DiscreteInfo(1)  DiscreteInfo(2) ....... DiscreteInfo(n) 
Batch 2  DiscreteInfo(1)  DiscreteInfo(2) ....... DiscreteInfo(n) 
Batch 3  DiscreteInfo(1)  DiscreteInfo(2) ....... DiscreteInfo(n) 
Batch 4  DiscreteInfo(1)  DiscreteInfo(2) ....... DiscreteInfo(n) 

Data Set 2 

Batch 1  t(1)  TimeData 
Batch 1  t(2)  TimeData 
Batch 1  t(3)  TimeData 
Batch 1  t(4)  TimeData 
. 
. 
. 
. 
Batch n  (t1)  TimeData 
Batch n  (t2)  TimeData 
Batch n  (t3)  TimeData 

私はこのすべてのデータが「良い」バッチ、「悪い」バッチ、または「まあまあ」バッチに属しているかどうかを分類しようとしています。これは、特定の個別パラメータ(データセットでは使用されていない)によって決まります。

私は機械学習にはとても新しいです。任意の入力またはアイデアが評価されます。私はこの問題に取り組むためにmatlabの分類学習者を使用しています。

答えて

0

分類の問題を処理する際に考慮する必要がある点がいくつかあります。

  1. トレーニングデータ。私たちは分類のための訓練データを必要としています。私たちは、上記の属性の値と、それが「良い」か「悪い」か「そう」かどうかにかかわらず、クラスの値を必要とします。
  2. これを使用して、モデルを訓練し、訓練されたすべての属性について新しいデータを与え、それが属するクラスを予測することができます。

離散的および連続的な限り、離散的および連続的データを処理する方法には違いはありません。実際、この場合、あるバッチの他のすべての時間変数の関数となる新しい属性を生成し、分類を実行することができます。データセットのインスタンスを提供すると、より正確に質問に答えることができます。

+0

データは私の質問のように構造化されています。私は実際には例のデータセットを与えることはできません。私は情報を共有することは許されていないと思うからです。 基本的に、2つのデータテーブルがあります。 1つは、クラス値とさまざまな別個の情報(通常、処理中に書き込まれ、バッチごとに1回だけ書き込まれるもの)を含む個別のテーブルです。別のデータテーブルでは、各バッチに属するすべての時間変動データがあります(1バッチあたり約1300行の情報、時刻tの温度のようなものです)。 – user3479118

+0

温度データが分類に役立つ重要な情報であると考えるこれらの変数を使用すると、データは1つのテーブルに格納され、今では使用することができるようになります。任意の標準的な機械学習アルゴリズム。 –

関連する問題