コードhere(sklearn 0.17のマイナーチェンジ)をたどりました。この例では、データは単なるリストまたはnumpy配列です。今度は、ディスク上におもちゃの訓練データセットを準備し、datasets.load_files
を使用してマルチラベル分類用にロードします。しかし、単にload_files
の規則に従い、同じファイルを複数のフォルダにコピーするだけでは、dataset.target
のリスト(別名ラベルセット)は生成されません。マルチラベル分類のためのトレーニングデータセットを準備する
したがって、マルチラベル分類のためのデータセットを作成する正しい方法は何ですか?
ありがとう@maxymoo、これは良い点です。私は複数のファイルをクロールして保存するので、ラベルのリスト、フォルダ構造を使わずに各文書に名前を付けるだけで、ファイル名を解析して内容を読み取る関数を作成します。 – treslumen
クロールする場合は、 mongodbやpostgresのようなデータベースを使うことを考えたければ、たくさんのファイルを浮かべるのではなく、長期的にはうれしいかもしれません。また、データベース上で前売りを行うこともできます。これは便利です。 – maxymoo