マルチラベル分類のためのトレーニングデータセットを準備する

コードhere（sklearn 0.17のマイナーチェンジ）をたどりました。この例では、データは単なるリストまたはnumpy配列です。今度は、ディスク上におもちゃの訓練データセットを準備し、datasets.load_filesを使用してマルチラベル分類用にロードします。しかし、単にload_filesの規則に従い、同じファイルを複数のフォルダにコピーするだけでは、dataset.targetのリスト（別名ラベルセット）は生成されません。マルチラベル分類のためのトレーニングデータセットを準備する

したがって、マルチラベル分類のためのデータセットを作成する正しい方法は何ですか？

出典

2016-05-01 treslumen

私はload_filesがマルチラベルのクラスをサポートしているとは思っていません。私はscikitを使ってデータを読み込むことは一度もありませんでした。私はいつも私の初期データを読み込み、パンダを使って前処理します。たとえば、あなたのケースのための一つの選択肢CSVとしてデータを格納するだろう、パイプで区切られたリストとしてラベルをシリアライズ

ファイルdata.csvが

recipe_name,classes 
'stir fried broccoli',chinese|vegetarian 
'kung po chicken',chinese|meat 
'sauerkraut salad',vegetarian|polish

かもしれませんし、次のようにあなたがそれをロードします：

を

import pandas as pd 
df = pd.read_csv('data.csv') 
X_train = df.recipe_name 
y_train = df.classes.str.split('|')

出典

2016-05-02 04:58:28 maxymoo

ありがとう@maxymoo、これは良い点です。私は複数のファイルをクロールして保存するので、ラベルのリスト、フォルダ構造を使わずに各文書に名前を付けるだけで、ファイル名を解析して内容を読み取る関数を作成します。 – treslumen

クロールする場合は、 mongodbやpostgresのようなデータベースを使うことを考えたければ、たくさんのファイルを浮かべるのではなく、長期的にはうれしいかもしれません。また、データベース上で前売りを行うこともできます。これは便利です。 – maxymoo

マルチラベル分類のためのトレーニングデータセットを準備する

答えて

関連する問題