私は以下のようなデータセットを持っています。実際のシナリオでは、10000から1000000の間の行数を持っています。より多くの列がありますが、コア問題はこれらの2つのフィールドの周りを回転します。Pythonベースのマルチラベル分類

既知のラベル

私はカテゴリを知っている-'Apple」、 'ブルーベリー'、 'オレンジ'、 'レタス'

データセットを

DataFrame 
({'ROWID':1,2,3,4,5,6,7,8,9,10], 
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'], 
'Details':['Eat one a day ,doctors keep away','Like it in a muffin', 
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my 
basket','Like it in a muffin','I like it it with salami','Comes from 
Mexico']})

問題：私が持っている

グループでgroupbyを使用して1つまたは複数の指標を作成する

カテゴリの列nには未知のセル値があります。「詳細」からテキストを読み込み、カテゴリに最も適したラベルを予測する必要があります。例えば

サラダ - それはの一部と理解される> 'レタス' - >レタス、フルーツ（行＃5） - >オレンジ果物（行＃8） - >ブルーベリーリーフ（行＃9）行はに分類できません。

必要なヘルプ：

私は問題を解決するために、右のモデルを識別するために、いくつかのガイダンスを探して、データ科学アルゴリズムで初心者です。

出典

2017-09-08 Reshmi Nandy

「詳細」列にNaive Bayesを使用する前に、「カテゴリ」列で単純なフィルタリングを行い、既知のカテゴリ値を持つ行を削除してください。

出典

2017-09-09 07:37:25 Shibaji

答えに関連するコードを共有して、役立てることができますか。 –

Pythonベースのマルチラベル分類

既知のラベル

データセットを

問題：私が持っている

必要なヘルプ：

答えて

関連する問題