0
私は以下のようなデータセットを持っています。実際のシナリオでは、10000から1000000の間の行数を持っています。 より多くの列がありますが、コア問題はこれらの2つのフィールドの周りを回転します。Pythonベースのマルチラベル分類
既知のラベル
私はカテゴリを知っている-'Apple」、 'ブルーベリー'、 'オレンジ'、 'レタス'データセットを
DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit'
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a muffin',
'Tastes yummy','Like it with
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my
basket','Like it in a muffin','I like it it with salami','Comes from
Mexico']})
問題:私が持っている
グループでgroupbyを使用して1つまたは複数の指標を作成する
カテゴリの列nには未知のセル値があります。「詳細」からテキストを読み込み、カテゴリに最も適したラベルを予測する必要があります。例えば
- サラダ - それはの一部と理解される> 'レタス' - >レタス、フルーツ(行#5) - >オレンジ果物(行#8) - >ブルーベリー リーフ(行#9)行は に分類できません。
必要なヘルプ:
私は問題を解決するために、右のモデルを識別するために、いくつかのガイダンスを探して、データ科学アルゴリズムで初心者です。
答えに関連するコードを共有して、役立てることができますか。 –