私は1次元配列を持っていますので、私のデータセットのカテゴリ的な特徴を以下のように格納しています。(各データインスタンスは多くのカテゴリに属し、コンマ)1つのホットエンコーディング - 1dの配列に格納されたデータ
Administration Oral ,Aged ,Area Under Curve ,Cholinergic Antagonists/adverse effects/*pharmacokinetics/therapeutic use ,Circadian Rhythm/physiology ,Cross-Over Studies ,Delayed-Action Preparations ,Dose-Response Relationship Drug ,Drug Administration Schedule ,Female ,Humans ,Mandelic Acids/adverse effects/blood/*pharmacokinetics/therapeutic use ,Metabolic Clearance Rate ,Middle Aged ,Urinary Incontinence/drug therapy ,Xerostomia/chemically induced ,
Adult ,Anti-Ulcer Agents/metabolism ,Antihypertensive Agents/metabolism ,Benzhydryl Compounds/administration & dosage/blood/*pharmacology ,Caffeine/*metabolism ,Central Nervous System Stimulants/metabolism ,Cresols/administration & dosage/blood/*pharmacology ,Cross-Over Studies ,Cytochromes/*pharmacology ,Debrisoquin/*metabolism ,Drug Interactions ,Humans ,Male ,Muscarinic Antagonists/pharmacology ,Omeprazole/*metabolism ,*Phenylpropanolamine ,Polymorphism Genetic ,Tolterodine Tartrate ,Urinary Bladder Diseases/drug therapy ,
...
...
この配列の各要素は、データインスタンスが属するカテゴリを表します。ワンホットエンコーディングを使用する必要があるので、これらをアルゴリズムとして使用することができます。私はこれがscrikit-learnを使って実現できると理解していますが、実装する方法がわかりません。 (約150の可能なカテゴリと約1,000のデータインスタンスがあります)