私が関与しているネットワークに起因する虐待行為について詳しく説明している電子メールは、ほんのわずかです。これらは通常、次のいずれかを含みます。Python + Scattergraphs + Other Nonsense
a)侵害されたとみなされるURL。
または
b)は、スパムと見なされるメールのコピー。
これらのほとんどは自動化されており、一般的にARFにはうまく対応していません。
私が必要とするのは自動データ抽出ですが、電子メールの構造が変わって予測できないときにはどうすればよいか分かりません。私は現時点で抽出するために探しています何
は次のとおりです。
a)は、ほとんどの輸出入/ qmailの中で示されているスパムのための発信メールサーバー(およびUID /ユーザー名は、ヘッダーを受信)
B私はいくつかを使用していない汗でこれを行うことができます)ドメイン名妥協サイト
d)の電子メールアドレス
ため
C)のURL正規表現と他の迷惑なビットがありますが、基本的には信頼できません。電子メールの本文を解析すると、5つのIP、3つのURL、3つの電子メールアドレスで終わることがあります。自動的にベストフィットを選択する方法は不明です。
正しいデータが何であるかを自動的に判断するために、私が研究したい/探しているべきことについて何らかの方向性が必要です。私は10万件を超える過去のレポートメールを持っているので、テストデータが不足しているわけではありません。この問題を解決するには、どうやって始めたらいいか、何を調べるべきかを知る必要があります。
Insersecting:これを読むために時間を割いて
おかげで、私が何かを見逃しているか、他の質問:)
がある場合はFYI、私は次のことを検討しているなら、私に知らせてくださいこの差出人からの複数の過去の電子メールを分類してから、新しい電子メールとの差を設定します。私はPythonのセット+リストを使っていくつかのアルゴリズムをハードコーディングする以外に、これを行う最善の方法については全く知らない。
私の以前のすべてのデータを様々な形態のスキャッタプール/ヒストグラムにプロットする。私は、既存のデータと比較して新しい電子メールをテストし、グラフ内で最も一般的ではない詳細を選ぶことができます。もう一度、私はここで何を探していなければならないのか分かりません。
サンプルデータを使用して、以前に見られたアイテムに対して重みを付けます。私。以前の1000個のサンプルのページを作成し、決して正しいとは思われないIPを「マークダウン」し、正しいIPをマークアップするとします。
ホスト名を解決してアイテムを一致させるために、ソケットルックアップを含むコードが複雑になります。私はこれが実行に集中することを知っていますが、最も良い結果を得る可能性が最も高いでしょう。
乾杯!
私はあなたに優れた結果をもたらす簡単なアプローチがあるとは思っていますが、転送された電子メールのパターンを検出するために何かを書こうとします。ほとんどの電子メールソフトウェアは、転送されたメッセージに非常に予測可能な機能を追加します。このようなメッセージを特定すると、すでに抽出できるUID/URL /ドメイン/アドレスに* context *が与えられます。 – Beta