2009-07-26 17 views
5

Wordpressには、Akismetというスパムフィルタリングプラグインがあります。このプラグインは、テキストのブロックをスパムとして分類することができるようです。インターフェイスとデータベース/アルゴリズムを通過する必要があるという唯一の注意点は、オープンソースでも簡単に利用できるものでもありません。無料のスパム対策データベースはありますか?

また、Webアプリケーションでユーザーから送信された電子メール、コメントまたはその他のテキストを分類するためのWebアクセス可能なAPIを提供する商用プロバイダもあります。

テキストブロックを迷惑メール/非迷惑メールとして分類できるオープンソースのデータベースや自由にアクセスできるデータベースはありますか?

編集:ここで私は

は基本的に私がスパムであること、特定のフレーズの確率でそこに大規模なデータベースがあったことを期待していた何をしたいの明確な説明を示します。スパム送信者はすべてのメールアドレスに平等にスパムを送信するので、ベイジアンスパムフィルタをこのデータベースに事前に設定することで、ユーザートレーニングなしでほとんどのスパムをキャプチャすることから始まるアプリケーションを作成できます。

答えて

1

コメントに基づいて更新:

私は単純なデータベースはトリックを行うとは思わない。ほとんどのスパムはアルゴリズムで生成されます(たとえば、コメントスパムは通常、投稿のコンテンツを組み込みます)。 Akismetはおそらくリンク分析や既知のスパム署名の使用など、さまざまなことを組み合わせていますが、公開しません。

私は興味深いAIプロジェクトについてclassify good rather than bad contentに読んだことがあります。 Spam Karmaを見ると、さまざまなスパムトリガー(ページの読み込み直後の投稿など)に基づいてブログのコメントを分析することもできます。


オリジナルの回答(DNSブラックリスト):おそらく

+0

私は、テキストのブロックを迷惑メールとして分類できるデータベースを探しています。たとえば、Akismet(ワードプレスプラグイン)は、任意のコメントをスパムとして分類することができます。 –

+0

Jonが述べたように、データベースは分類にはあまり役に立ちません。 Akismetは、データベースに対してチェックするのではなく、スパムの作成に使用される手続き型の生成を模倣しています。 – JoshJordan

+0

これらのリンクをありがとう。スパムを分類するためのアルゴリズムは数多くありますが、スパムシグネチャの優れたデータベースは非常に価値があります。私は、WordpressやGoogleのような誰かが無料のデータベースとしてスパム署名を公開してくれることを期待していました。まあ、私は知っている。しかし、男は夢を見ることができますか? –

1

これは完全に死んだ質問かもしれませんが、これをチェックしてください: http://www.stopforumspam.com APIを使用してIPをチェックしたり、入力したユーザー名やメールをDBに照らして確認してください。しかし、タイムアウトのパラメータでcURLを使用することをお勧めします。サービスは時々あなたにタイムアウトすることがあります。

関連する問題