2012-10-22 5 views
8

私はPython NLTKとDocument ClassificationとNaive Bayesクラシファイアで遊んでいたプロジェクトの光景です。ドキュメントから理解しているように、別のドキュメントにラベルとしてposまたはnegのタグが付いている場合(または2つ以上のラベル)NLTK:ラベルの代わりに数値のスコアを持つドキュメントの分類

私が扱っているドキュメントは既に分類されていますラベルを持っていますが、0から5までの浮動小数点のスコアを持っています。

ドキュメンテーションのムービーの例のようなクラシファイアを作成していますが、ラベルではなくテキストです。私はこれがドキュメントに記載されているとは思うが、「数値フィーチャの確率」としてさらに検討することはない

私は言語の専門家でも統計家でもないので、誰かがこの周りに横たわっている例があるなら、これを私と共有してください。ありがとう!あなたが探していることは、線形回帰である

+0

NLTKにはあまりよく慣れていませんが、ナイーブベイズ分類子のラベルは確率に直接関係しています。したがって、NLTKコードのどこかで、確率が計算され、その確率がしきい値を上回るか下回るかに基づいて、ラベルが適用されます。 –

答えて

0

を参照してください。

あなたが尋ねるのは、回帰です。 Jacobの答えに関して、線形回帰はそれを行うための唯一の方法です。しかし、私はscikit-learnの彼の推薦に同意します。

関連する問題