2017-09-08 26 views
0

私は以下のようなデータセットを持っています。実際のシナリオでは、10000から1000000の間の行数を持っています。 より多くの列がありますが、コア問題はこれらの2つのフィールドの周りを回転します。Pythonベースのマルチラベル分類

既知のラベル

私はカテゴリを知っている-'Apple」、 'ブルーベリー'、 'オレンジ'、 'レタス'

データセットを

DataFrame 
({'ROWID':1,2,3,4,5,6,7,8,9,10], 
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'], 
'Details':['Eat one a day ,doctors keep away','Like it in a muffin', 
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my 
basket','Like it in a muffin','I like it it with salami','Comes from 
Mexico']}) 

問題:私が持っている

グループでgroupbyを使用して1つまたは複数の指標を作成する

カテゴリの列nには未知のセル値があります。「詳細」からテキストを読み込み、カテゴリに最も適したラベルを予測する必要があります。例えば

  • サラダ - それはの一部と理解される> 'レタス' - >レタス、フルーツ(行#5) - >オレンジ果物(行#8) - >ブルーベリー リーフ(行#9)行は に分類できません。

必要なヘルプ:

私は問題を解決するために、右のモデルを識別するために、いくつかのガイダンスを探して、データ科学アルゴリズムで初心者です。

答えて

0

「詳細」列にNaive Bayesを使用する前に、「カテゴリ」列で単純なフィルタリングを行い、既知のカテゴリ値を持つ行を削除してください。

+0

答えに関連するコードを共有して、役立てることができますか。 –

関連する問題