2012-02-01 7 views
2

私は、バルクメール、通知、ニュースレターではなく、実際の人間が送信した電子メールを特定する必要があるプロジェクトに取り組んでいます。それを行う明確な方法はありますか?電子メールヘッダーに役立つ情報はありますか?私はGmailのIMAPの上で働いているので、私はすでにスパム以外のメールを持っています。人間が送信した電子メールを特定するにはどうすればよいですか?

この点に関するお手伝いがあります。ありがとう!

+1

管理職員も実在の人です。 – musefan

+1

彼らは人間から遠いですがhttp://images.wikia.com/southpark/images/4/42/Manateessouthpark.JPG – Curt

答えて

4

バルクメールをパーソナライズされたメーリングと区別するための明確な方法はありません。スパムとは異なり、ほとんどのバルクメールは要求/予想されるので、送信者は迷惑メールフィルタを利用するために奇妙なことをしません。これらのメールはしばしばかなりよく混合されます。

しかし、あなたが探している傾向があります。確実にやりたいのであれば、おそらくスパムフィルターのような採点システムを適用する必要があります。

また、偽陽性と偽陰性の割合がかなり高くなることに同意する必要があります。

パーソナライズ対応してあまり頻繁に表示されるバルクメールに共通しているいくつかのもの:

  1. と「CC」のアドレスがローカルの受信者が含まれていない「します」。送信者は、「[email protected]」、「[email protected]」などの代わりに「[email protected]」に送信することもあります。このような場合、「To」には1つのアドレスしか表示されない可能性があります"cc"には何も表示されません。
  2. "送信元"アドレスは "noreply @"、 "newsletter @"、 "do-not-reply @"、 "mailinglist @
  3. "List-Unsubscribe:"ヘッダーが存在する
  4. メッセージには購読解除リンクが含まれています。パターンマッチングを実行して、メールの最後の数行にある共通のフレーズを見つけます。リンクや「脱退」、「オプトアウト」などの言葉を探します。
  5. メーリングリストはリッチコンテンツを持つ傾向があります。 CSSの使用量が多く、画像がたくさんあることを確認してください。メッセージ全体は<table></table>または<ul><li></li></ul>構造体に含まれています。つまり、メールクライアントではなく、Dreamweaverのようなものを入れるということです。
  6. メッセージの先頭にヘッダーまたは太字の内容が含まれています。メッセージの最初のビットがニュースレターに似ている場合は、おそらくニュースレターです。
  7. 多くのリンクや頻繁に同じ(または同じ)ウェブサイトへのリンクがあります。ニュースレターは、できるだけユーザーを会社のサイトに誘導しようとします。リンクされたドメインが送信者ドメインと一致(または類似)している場合、これをさらに高く評価することができます。
  8. ソーシャルメディアへの重い参照。複数の記事を含むニュースレターの場合、それぞれの記事には独自の「Tweet this」、「Like this」のリンクがあります。個人ユーザーは、Twitter、Facebookなど(自分の署名で)への参照を1つしか含まない可能性が高いです。
  9. 通知やその他の自動生成メッセージは、しばしば同じ基本フォーマットに従います。もしあなたがその能力を持っていれば、何らかの種類のdiffingや以前のメッセージとの他の比較を実行してください。強力なマッチングは自動化を意味します。
  10. 挨拶や一般的な挨拶はありません。しかし、個人的な電子メールはしばしば "Dear Fred"ビットもスキップします。だから、これだけでは十分に検出できません。 「親愛なるユーザー」や「親愛なる顧客」のようなものはほぼ確実に一般的です。
  11. 「ありがとうございました、イアン」または「あなたの敬具、John Doe」
  12. 送信者は非常に高い評価を受けています。記録を残す。送信者が高いスコアを数回トリガーすると、それらはほぼ確実にバルクメーリングになります。
+0

ありがとう!これは、私が探していた、思っていたものよりももっと助けになります。また、「Request」ヘッダーを追跡して、クライアントのホワイトリストを作成することも考えていました。既知の電子メールのコーパスを作成し、それに他の電子メールとマッチングさせることによって。あなたはこのモデルに何らかの欠陥があると思いますか? –

+0

「リクエスト」ヘッダーの意味がわかりません。あなたがどのような方法で持っている主な問題は、適切なバランスを取ることに関係する時間なので、あまりにも多くの誤った結果を得ることはありません。ホワイトリストは、寛大にしない限り、他のすべての作業を元に戻すことができます。 – SimonMayer

+0

各メールには「Request」というヘッダー情報が付いています。この情報には、どのクライアントから送られたか、どのサーバーから送られたかなどの情報が含まれています。これは電子メールヘッダーで最も信頼できる情報です。私はちょうどそのデータを理解する方法を理解しようとしています。 –

関連する問題