2017-06-07 3 views
-1

を使用してテキストを分類。私は分類しNLTKを使用することを計画しています法案、健康、広告などに私の受信トレイに私のメールを分類する必要があるとnltk.classify.naivebayesはそれのために良い選択であることを読みました。どこから始めますか?誰も私に簡単なサンプルコードを与えることができます。私はnaivebayesとそのアルゴリズムを説明する多くの投稿を見てきました。すでに述べたように私はNLPのコンセプトに新しいですNLTK

+0

最初のステップは、あなたのデータに注釈を付けることであろう。 –

+0

第2ステップ(または最初のステップ)は、NLTK本の分類に関する章を読むことです。 – alexis

+0

@JosepVallsデータに注釈を付けるにはどうすればいいですか?あなたはplsのサンプルコードを提供できますか? –

答えて

-2

まず、あなたがあなたのデータに注釈を付ける必要があります。これは、受信トレイに既にある電子メールにタグ(例:請求書、健康)を割り当てることを意味します。 その後、正規化する必要があります。つまり、それをトークンに分割し、すべての単語を小文字にすることを意味します。

データで作業を開始するには、辞書内のベクトルとして表現する必要があります。ここで

も、私はかなり便利良いTutorialです。

+1

Naive Bayesクラシファイアを作成しないでください(チュートリアルの目的)。 nltkが提供するものを使用してください。 – alexis