2017-07-16 8 views
2

私は電子メールを使ってメッセージの本文を取り除き、スポーツ、政治、技術などのラベルを使って電子メールパッケージを取り除くプロジェクトに取り組んでいます。私は電子メールからメッセージ本文を削除しました。私は分類を開始しようとしています。ラベルテキスト文書 - 管理下の機械学習

スポーツ、技術、政治、エンターテインメントのような複数のラベルを作成するには、ラベルを作成するためにそれぞれの単語のセットが必要です。フットボール、サッカー、ホッケー......私は私を助けるために、オンラインでラベルデータを見つけることができます

スポーツラベルの例は、ラベルデータを持っているのだろうか?あなたが何をしようとして

+1

ではありません。電子メールをすでにお持ちの場合は、LDAを使用してトピックの単語を抽出することができます。 –

答えて

0

は、トピックモデリングと呼ばれる: https://en.wikipedia.org/wiki/Topic_model

トピックのリストは、あなたのトレーニングデータセット及びこれを構築しているそのための究極の目的に非常に依存します。開始するには 良い場所はここになります https://nlp.stanford.edu/software/tmt/tmt-0.4/

あなたはそれらのトピックに見ることができますが、あなたはおそらく、あなたのデータにいくつかの初期のトピックを与え、ちょうど彼らのトピックの上で動作するためにそれを使用することができます。

+0

私はトピック/ラベルのリストを持っており、私はその内容を持っています。 – SecQuestionnA

0

BBCデータセットを使用できます。 ニュース記事には役立つラベルが付けられています。

特徴抽出のために、TF-IDFとnグラムを使用し、ステミング行い、ストップワードを削除して、最高の機能

1

を選択するよりも、あなたはDMOZを使用することができます。

賞をもらうには、さまざまな種類のテキストがあります。例えば、電子メールの場合は、テキストの中で最も一般的な単語の一つがHiまたはHelloになりますが、ウィキテキストHiHelloで、私はそれが質問のstackoverflowのの種類だか分からない一般的な単語