2012-03-09 3 views
-2

私はスパムの可能性のあるいたずらな単語のリストを使用する非常にシンプルなスパムフィルタメカニズムを用意しています(これらはポストコンテンツやユーザープロファイルフィールドなどに使用します)。スパムと戦うにはどんないたずらな単語リストが良いですか?

私は現在持っている:

array ('shop','bags','shoes','shag','watches','sales','health','insurance','trader','wedding','casino','hack','ps3','cheap','episode','accessories','movie','nobod.info') 

あなたはどのようなリストを使用していますか?私はいつでも言葉を追加/変更していますので、他のリストを見ることが大きな助けになるでしょう!

+3

あなたのためのまともな読書資料は次のとおりです。http://www.codinghorror.com/blog/2007/12/blacklists-dont-work.html –

答えて

3

このようなブラックリストの単語は効果的に機能しません。ここでは機械学習のテクニックが非常に役立ちます。つまり、明示的にスパムとマークされたメッセージを見て、スパムメッセージが実際にどのように見えるかをコンピュータに知らせるようにします。これは、gmailがスパムとの闘いに使うようなメールサイトです。これはたくさんの仕事ですが、スパムと戦うための非常に信頼できる方法です(Gmailの受信トレイでスパムを最後に見たのはいつですか?)

ブラックリストに載っている単語も非常に高い偽陽性率ですとてもうるさい。

+0

確かにいくつかの誤認がありますが、管理者はそれをすぐに払拭できます。そのメッセージは、誰かが却下するまで許可されていない限り隠されています。確かに迷惑をかけるが、現時点では災害ではない。 –

関連する問題