2009-04-09 8 views
3

方法は以下のとおりです。 ヒューリスティックは、スパマー/ボットを発見する(フォーラムでは、ブログなど)私は考えることができる

  1. は、アクション間の時間を測定します。
  2. 投稿の内容を比較する(あまりにも似ている場合)か、投稿されたリンクのみを比較してください。
  3. ユーザーがアクティブな期間に配信を確認します(ユーザーがアクティブな場合、1時間に1回、1週間、1週間に投稿すると、ここにスーパーマンまたはボットがあります)。
  4. stackoverflowのように、ユーザーは新しい回答、コメント、質問などを表示するために、ユーザー名のリンク(上段中央)を押してください。
  5. (チャクトリによって追加)役職。
  6. ヒューリスティックではありません。ユーザーログインには、いくつかのasync JSを使用します。 (ちょっと人生をボットプログラマでもっと難しくする)。
  7. (Alekcが追加)ヒューリスティックではありません。ユーザーエージェント値。
  8. そして、どのように私はGoogleのアプローチを忘れることができますか(Will Hartungによって言及されました)。ユーザーに迷惑メールとしてマークする能力を与え、十分な迷惑メールが迷惑メールであることを意味します。 (何が十分なユーザーであるかを計算すると、ここでの作業です)。

これ以上のアイデアはありますか?

+0

本当に答えはありませんが、あなたはそれらの国の読者がいない限り、.ruと.cnのサブネットをブラックリストに登録するだけで、かなりの割合のコメント/フォーラムスパムを削減することができます。 – NoCarrier

答えて

4

私はボットクリエイターの知性を見積もっているかもしれませんが、6番のボットクリエイターは全く役に立たないです。 C#ブラウザコントロールを使用してボットを作成すると、かなり役に立たなくなります。私が見たことから、このタイプのソフトウェアはかなり一般的なアプローチです。

ユーザーエージェントの検証は、あまりにも役に立たないです。私が得るために使用するブログスパムのすべては、有効なウェブブラウザであると思われるボットからのものでした。

私は多くのブログのスパムを取得するために使用します。文字通り、一日に何百ものコメントを削除しています。私はreCaptchaを使いました。今は1ヶ月になるかもしれません。

このようなことを実際に試みている場合は、私は次のようにして試みます:

ユーザーは、URLを投稿する機能を持たずに始めます。

投稿の数がスレッドの他の投稿と比較して分析された後、ポストURLにアクセスできるようにします。

サイトの利用者のアクティビティ、投稿の品質、その他必要と思われるその他の要素は、そのユーザーのIPに対する評判になります。

そして、同じサブネット上のIPと他のIPの評判に基づいて、あなたが望むものは他の決定をすることができます。

これはちょうど頭に浮かんだことでした。それが役に立てば幸い。

+0

+1制限するアイデア投稿URLからの新しいユーザーは、私の個人的なケースでは非常に良いものです。それの一般性は不明です。 –

3
  • 投稿内のリンク数。

私はどこかで、Akismetの主要なヒューリスティックの1つとしてリンクの数を使用していると思います。

私のブログのほとんどのスパムコメントには、10個以上のリンクが含まれています。

と言えば... Akismet API自体をチェックしてみてください。非常に効果的です。

+0

+1。投稿のリンクはかなり良いものです。 Spamhaus.orgからのブラックリストを参照してください。 –

1

郵便体のスパム関連キーワードの検索はどうですか?

ヒューリスティックではありませんが効果的なアプローチ:APIsを使用してStopForumSpamによって公開された統計情報を最新の状態に保つこともできます。

1

ページ訪問間隔はよくあると思います。

私の個人的なサイトにコメントセクションを追加する必要があり、人々に私に自分のメールアドレスを教えてもらうことを考えています。私は彼らに「コメントを公開」リンクをメールします。あなたは、彼らがスパムブラックリストIPアドレスから来ているかどうかを確認することをお勧めします

http://www.spamhaus.org/を参照)

+0

Spamhausは有望そうです:-) ...しかし、私はブラックリストとプロキシで悪い経験をしていたと思います。:-( – chakrit

0

私は4度の点についていくつかの疑問を持って、とにかく私はまた、ユーザエージェントを追加します。私の経験では、ボットの約90%がPerlをUAとして使用しています

+0

4 ..これはヒューリスティックであり、実装が最も困難なものですが、そのようなシステムからはるかに多くのスパムフィルタ(サイトのユーザー行動を追跡するシステム)を得ることができます。 –

+0

行動パターンを追跡する。ここでスタックのオーバーフローでは、自分のプロフィールをクリックせずに質問の周りを移動することができます。 – Alekc

1

another answerは、私が完全に支持している迷惑メールを検出するためにAkismetを使用することを示唆しています。

ただし、ブロック上の唯一のプレーヤーではありません。

Akismetと同じヒューリスティックスを使用し、同じAPI(同じURLとapiキー、呼び出しの構造は同じです)を使用していますTypePad AntiSpamがあります。 Akismetと同じアプローチを取っていると言っても過言ではありません。

また、Project Honeypotをチェックアウトすることもできます。私が知ることから、ユーザのIPアドレスに基づいてルックアップを行うことができます。もしそれが既知の悪意のあるIPであれば、ハーベスタかそのようなことを伝えます。

最後に、LinkSleeveが、別の方法であることを主張してコメントスパムに近づくことを確認できます。基本的には、コメントにリンクされているリンクをチェックし、リンクがどこに行くのかに基づいて判断します。

+0

ハニーポットはやや積極的にフィルタリングしています。私のISPのプロキシアドレスがリストに含まれていたため、自分のウェブサイトから一度ブロックされてしまった...まったく私のためのバマー:-(...とにかく+1)とにかく:-) – chakrit

0

私はある種のウェブサービスがあると確信しています。トップSEOキーワードのリストを取得し、そのキーワードの内容を確認してください。コンテンツがキーワードで豊富であればスパムであると思われます。

1

究極のヒューリスティックを忘れないでください:ユーザーがクリックできる「レポートスパム」ボタン。それ以外の場合は、管理者として、スリップする可能性のあるものについてルール・ベースを更新する機会を与えます。もちろん、問題の投稿とユーザーをすぐに削除することもできます。

+0

これは乱用の可能性があることに注意してください。ほとんどの場合、ユーザーが何度も投票したり匿名ユーザーからの投票を許可すると、悪意のあるユーザーはこれを使用して反対意見を黙らせることができます。これを防ぐには、手動審査(おそらく信頼できるユーザーによる)または少なくともアピールプロセスを検討してください。 – aem

関連する問題