2011-12-31 5 views
1

可能性の重複:私のWebアプリケーションで
“bad words” filterどうすれば私のウェブサイトのクライアントが呪いや汚い言葉を送るのを防ぐことができますか?

私は、ユーザからの入力を取得し、メインページに掲載のセクションを持っています。

汚れた言語での投稿を防止したいと思います。

ほとんどのcursesや汚れた表現を英語で検出するライブラリやphpのライブラリはありますか?

まもなく私はその方法で入力をテストしたいと思います。

if the input in the set of the unwanted patterns 
     dob't publish it 
else 
     publish it on the main wall 
+2

関連:[Scunthorpe problem](http://en.wikipedia.org/wiki/Scunthorpe_problem) – Gumbo

+1

正確な複製ではありませんが、ここでは式(ngram)もフィルタリングしたいと考えています。私はこの話題が近くにあるべきではないと思う。 – JohnJohnGa

答えて

2

正直?ポストをプログラム的に検閲する信頼できる方法はありません。 Scunthorpeの誰かが最近、Effinの街への旅行について投稿していて、Jarvis Cockerの音楽を聞くのが大好きで、Shitzuに新郎を与えていたら、それはおそらくあなたが実装してくれる誓いのフィルターを引き起こすでしょう。さらに、あなたの言葉をあなたのリストから離れると、それは通り抜けます。

人間の司会者が投稿にフラグを立てるために何らかのフィルタを使用できますが、完全に自動化されたプロセスによっては機能しません。

+1

私はまったく同意しない。情報検索の問題です。 Googleとyahooはこの種の問題を長年にわたって扱っており、この問題を解決するために単一の単語またはngramの確率を使用することができます。 – JohnJohnGa

+0

この性質の問題はとにかく起こるので、明らかに絶対確実ではありません。したがって私は私の元の答えに立っています。今月だけで、問題を引き起こす自動フィルタリングに関するニュースで2つの話がありました(女性は彼女の故郷をFacebook上でEffinに設定できず、Virginケーブルテレビ番組ガイドではNever Never the Buzzcocksなどの番組名を検閲し始めました) – GordonM

1

これは辞書に基づいている必要があります。 まず、汚れた単語の静的リストが必要です。 次に、1つの汚い言葉に関連するすべての上位連鎖を見つけて、可能な汚れた表現をすべて見つけることができますが、大きな文書セットが必要になります。

関連する問題