2012-03-20 2 views
0

私はPHP(http://www.xhtml.net/php/PHPNaiveBayesianFilter)よりNaive Bayesianクラシファイアで働いていますNaive Bayesian Classifierの無視される単語のリストはどれですか?

そして、システムのトレーニング中に無視できる単語のリストがあります。これらの単語はデータベースに保存されないため、分類には使用されません。 私は可能な限りシステムを改善したいので、この種のシステムでは無視するべき典型的な言葉の規則やリストがあるかどうか疑問に思っていました。

"to"、 "and"、 "the"、 "for"、 "since"、 "which"、 "what"、 "who" ...などの一般的な動詞を無視しています。 "あった"、 "あった"、 "された"、 "された"

お勧めはありますか?おかげさまで

+0

システムのトレーニング内容によって異なります。 。ベイジアンは、このスパムフィルタの多くのために使用することができます – Baba

+0

ちょうどスポーツ、政治、技術と経済の4つのカテゴリにいくつかのテキストを分類する。 – Alvaro

答えて

2

あなたは言葉....主に形容詞や接続詞、多分動詞の多くに対処されるだろう....

そのあなたは、データベースへのTXTまたはインポートとして保存する必要があり、非常に長いリスト... ...私はここにいくつかのリンク

http://www.momswhothink.com/reading/list-of-verbs.html

http://grammar.yourdictionary.com/parts-of-speech/conjunctions/conjunctions.html

であるあなただけのGoogleと直接

をダウンロード示唆します

http://www.smart-words.org/transition-words.html

http://www.momswhothink.com/reading/list-of-adjectives.html

あなたが持っているより多くの言葉より良いあなたのシステムが

おかげ :)

1

ないあなたが持っているどのくらいのデータ確認を動作しますが、あなたはPythonのパッケージを使用できるかどうかnltkあなたは分類を実行する前に典型的に削除される "ストップ"単語の予めコンパイルされたリストを得ることができます。また、Naive Bayesによく役立つすべての単語をステミング/リーマ化することができます(nltkを再度使用)。さらに、nltkは、スピーチの部分を合理的に識別できるので、より高度なフィルタリングを行うことができます(例:名詞、固有名詞、副詞、形容詞のみを保持することによって)

+0

私はPHPを使用しています。だから私はあなたが話していることを使うことができるかどうかは分かりません。 – Alvaro

関連する問題