2

コードhere(sklearn 0.17のマイナーチェンジ)をたどりました。この例では、データは単なるリストまたはnumpy配列です。今度は、ディスク上におもちゃの訓練データセットを準備し、datasets.load_filesを使用してマルチラベル分類用にロードします。しかし、単にload_filesの規則に従い、同じファイルを複数のフォルダにコピーするだけでは、dataset.targetのリスト(別名ラベルセット)は生成されません。マルチラベル分類のためのトレーニングデータセットを準備する

したがって、マルチラベル分類のためのデータセットを作成する正しい方法は何ですか?

答えて

1

私はload_filesがマルチラベルのクラスをサポートしているとは思っていません。私はscikitを使ってデータを読み込むことは一度もありませんでした。私はいつも私の初期データを読み込み、パンダを使って前処理します。たとえば、あなたのケースのための一つの選択肢CSVとしてデータを格納するだろう、パイプで区切られたリストとしてラベルをシリアライズ

ファイルdata.csv

recipe_name,classes 
'stir fried broccoli',chinese|vegetarian 
'kung po chicken',chinese|meat 
'sauerkraut salad',vegetarian|polish 

かもしれませんし、次のようにあなたがそれをロードします:

import pandas as pd 
df = pd.read_csv('data.csv') 
X_train = df.recipe_name 
y_train = df.classes.str.split('|') 
+0

ありがとう@maxymoo、これは良い点です。私は複数のファイルをクロールして保存するので、ラベルのリスト、フォルダ構造を使わずに各文書に名前を付けるだけで、ファイル名を解析して内容を読み取る関数を作成します。 – treslumen

+1

クロールする場合は、 mongodbやpostgresのようなデータベースを使うことを考えたければ、たくさんのファイルを浮かべるのではなく、長期的にはうれしいかもしれません。また、データベース上で前売りを行うこともできます。これは便利です。 – maxymoo

関連する問題