2017-11-15 15 views
-1

私はさまざまな変数について数値の観測値を持つセンサデータを扱っています。私は3つのラベルA、B、Cに分類したいと思っています。ファイル名がラベルである複数のCSVファイルを使用した分類

しかし、ここでは状況が異なります。

トレーニング用のインスタンス(またはラベル付きデータ)が30個、テスト用インスタンス(ラベルのないデータ)が20個あります。

これらのインスタンスは、センサによって記録された変数とパラメータの時系列記録です。各インスタンス(または単一の観測)は、screenshotファイルに示すようにCSVです。

CSVファイルの名前はラベルで、分類する必要があるラベルです。だから、私は30のCSVファイルまたはインスタンス(または30ラベル)と20インスタンスまたはテストのためのCSVファイルがあります。

すべてのCSVファイルは同じデータ構造です。それらはそれ自体が単一の観測(形5000,12)の単一の観測であり、クラスAが対象変数であるclassA.csvのファイル名であるため、どのファイルにもラベルはありません。

私は欲しいです把握するには、これらのデータをどのように置くことができますか(トレーニングデータの各観測(またはクラス)はcsvファイルで、各ファイルには5000件の観測データが含まれています)。

ご提案ください。

ありがとうございました。

+0

データの性質についてご存知ですか?機械学習アルゴリズムは、あるカテゴリを別のカテゴリから区別することができますが、ランダムなデータの違いを選択することができます。各ファイルの 'label'カラムに追加して、このファイルの名前をここに置くことができます。すべてのファイルを連結し、すべてのデータをxgboostに送ります。あなたが役に立つものを手に入れてもらえますか、そうでないかもしれません。しかし、あなたは試すことができます。 – CrazyElf

答えて

0

私はPythonのCSVインターフェイスを理解するために、このリンクを読んでお勧めします。 https://docs.python.org/2/library/csv.html

あなたの基本的な手順は次のようになります。あなたのデータは、ファイルを介し

  • 反復を保存されているディレクトリへ

    1. ポイントのPythonこのディレクトリの
    2. ファイルごと: PythonのCSVインターフェイスを使用してデータを取り出し、データ構造に配置します。 CSVを解析すると、データを取り出すために反復処理できる行の配列ができます。私はあなたがどのようにデータにアクセスできるかを見るために、「短い使用例」の下を調べることをお勧めします。
  • +0

    私はこのリンクからパンダの異なるファイルに読み込めませんでした。 –