2016-12-06 11 views
-4

異なるコンテンツにラベル付けされた異なるキーワードがあるとします。 異なるテキストへの複数ラベルの分類

label          content 
    great, amazing       our company is bla bla 
               bla bla bla...... 

    amazing, horrible,interesting    our company is bla bla 
               bla bla bla...... 

    boring         our company is bla bla 
               bla bla bla...... 

次に、モデルを構築するために分類機学習モデルを使用したいと考えています。

この種のマルチラベル分類作業を行いビルドする方法を教えてもらえますか?

p.s.私はscikit-learnライブラリを使用することを好む

+0

ここで例を確認してください。http://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification-format – mkaran

答えて

0

はい、私はこの質問を投稿する前にこれを読んだ。しかし、それは常に過適合と思われる。これは、sklearnによって提供された例が、1つの文のような単純なテキストのためだけに進んでいるためです。しかし、現在私が持っている文章は、単なる文章ではなく、膨大な数の仕事について話しています。

実際、私はkaggleの例を読みました。 (https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words)私が欲しいものに近いですが、マルチラベル分類にしようとしたときに、あまりにもオーバーフィットになるようです。

誰かが私にテキストマイニングに関する質問を教えてもらえますか?

関連する問題