私はPython NLTKとDocument ClassificationとNaive Bayesクラシファイアで遊んでいたプロジェクトの光景です。ドキュメントから理解しているように、別のドキュメントにラベルとしてposまたはnegのタグが付いている場合(または2つ以上のラベル)NLTK:ラベルの代わりに数値のスコアを持つドキュメントの分類
私が扱っているドキュメントは既に分類されていますラベルを持っていますが、0から5までの浮動小数点のスコアを持っています。
ドキュメンテーションのムービーの例のようなクラシファイアを作成していますが、ラベルではなくテキストです。私はこれがドキュメントに記載されているとは思うが、「数値フィーチャの確率」としてさらに検討することはない
私は言語の専門家でも統計家でもないので、誰かがこの周りに横たわっている例があるなら、これを私と共有してください。ありがとう!あなたが探していることは、線形回帰である
NLTKにはあまりよく慣れていませんが、ナイーブベイズ分類子のラベルは確率に直接関係しています。したがって、NLTKコードのどこかで、確率が計算され、その確率がしきい値を上回るか下回るかに基づいて、ラベルが適用されます。 –