2017-01-02 26 views
1

この質問がSOの質問ガイドラインに違反していても私は立ち往生していますが、このタイプの質問には他の場所を見つけることができません。 3つの異なる条件(高温、低温、快適)で得られた3つの実験データを含むデータセットがあるとします。データは、4列(time, cold, comfortable and hot)からなるpandas dataframeの3つの列に配置される。 私はデータをプロットすると、3つの実験の分離を視覚的に見ることができますが、私は機械学習でそれを自動的に行いたいと思います。 x軸はtimeを表し、y軸はデータのmagnitudeを表します。私はclassification techniquesを学習する別のマシンについて読んだことがあるが、私はデータを設定してclassificationアルゴリズムに 'フィード'できるようにする方法を理解していない。つまり、私の質問は次のとおりです。機械学習分類データセット

  1. これはプログラム的に実行可能ですか?
  2. 分類アルゴリズムに簡単に入力できるように設定する(データを整理する)にはどうすればよいですか? From what I read so farアルゴリズムが動作するためには、データが特定の順序でなければならないようです(例えば、iris datasetのデータがうまくラベル付けされています)。 注:理想的には、私は大きさの値与えられ、それはhot, comfortable or coldとして値を分類する、プログラムをしたいと思います。時系列が、これは実現可能である。もちろん、
+1

分類を使用して達成しようとしていることはありますか?それがあなたのデータならば、分類されるテストセットとして別のデータがありますか? – Arman

+1

データのソートが不十分なのはなぜですか?あなたがXYの問題を抱えているようです。http://meta.stackexchange.com/questions/66377/what-is-the-xy-problem – alex314159

+0

@Arman、それは私のデータですが、私はこのデータを他の実験結果を予測する –

答えて

1

私の場合には関連性のあまりないです。

オリジナルの投稿から、あなたのモデルで利用可能な変数/機能を正確には明らかにしていませんが、ここには一般的なガイダンスが少しあります。分類から回帰までのこれらの機械学習の問題はすべて、一連の入力に基づいていくつかの結果を予測しようとしているのと同じ中核的な前提に頼っています。通常、この関係は、y ~ X1 + X2 + X3 ...のようにモデル化されています。yは結果変数(「依存」)、X1X2などはフィーチャー(「説明変数」)です。より簡単には、フィーチャセット行列X(すなわち、すべてのx変数を含む行列)を使用すると、様々なML技法を使用して、結果変数yを予測できます。

ComfortableHotのいずれかがtimeに基づいているかどうかを予測しようとします。これは、あなたのデータセットの中で最も重要な機能(そうではないにしても)の1つに見える時間コンポーネントを持っているので、ML問題よりも予測問題の方がはるかです。時系列MLアプローチの一部は初心者には適していない可能性があるため、MLアルゴリズムではなく、より簡単な時系列予測手法(ARIMAなど)を検討することをおすすめします。

いずれにしても、これが始めるはずです。

+0

あなたの迅速な対応に感謝します。 ARIMAは、分類とは対照的に将来の価値を予測するために使用されていませんか?私の場合、時間はあまり関係ありません。与えられた大きさが熱い、冷たい、または快適な実験に属しているかどうかだけを気にします。 –

+1

a)ARIMAを使用して、特定の時刻tの値を予測し、「ホット」、「コールド」、「コンフォート」のいずれかのルールを適用します(たとえば80以上が「ホット」です)。またはb)それを分類問題として扱い、あなたのフィーチャーに 'time'を使用するだけです。あなたのMLルートを行っている場合は、もう少し検討する必要がありますあなたのデータ(例えば季節性)に特定の時系列コンポーネントがあるかもしれません... – blacksite

+0

それは残念ながら私は予測するために分類モデルを使用する必要がありますので、その出力値は、使用されている被験者(私の場合はマウス)に依存する他の実験。 –