私はさまざまな変数について数値の観測値を持つセンサデータを扱っています。私は3つのラベルA、B、Cに分類したいと思っています。ファイル名がラベルである複数のCSVファイルを使用した分類
しかし、ここでは状況が異なります。
トレーニング用のインスタンス(またはラベル付きデータ)が30個、テスト用インスタンス(ラベルのないデータ)が20個あります。
これらのインスタンスは、センサによって記録された変数とパラメータの時系列記録です。各インスタンス(または単一の観測)は、screenshotファイルに示すようにCSVです。
CSVファイルの名前はラベルで、分類する必要があるラベルです。だから、私は30のCSVファイルまたはインスタンス(または30ラベル)と20インスタンスまたはテストのためのCSVファイルがあります。
すべてのCSVファイルは同じデータ構造です。それらはそれ自体が単一の観測(形5000,12)の単一の観測であり、クラスAが対象変数であるclassA.csvのファイル名であるため、どのファイルにもラベルはありません。
私は欲しいです把握するには、これらのデータをどのように置くことができますか(トレーニングデータの各観測(またはクラス)はcsvファイルで、各ファイルには5000件の観測データが含まれています)。
ご提案ください。
ありがとうございました。
データの性質についてご存知ですか?機械学習アルゴリズムは、あるカテゴリを別のカテゴリから区別することができますが、ランダムなデータの違いを選択することができます。各ファイルの 'label'カラムに追加して、このファイルの名前をここに置くことができます。すべてのファイルを連結し、すべてのデータをxgboostに送ります。あなたが役に立つものを手に入れてもらえますか、そうでないかもしれません。しかし、あなたは試すことができます。 – CrazyElf