私は、既存のライブラリやコードサンプルを探して、MIMEメッセージ構造から関連する部分を抽出して、それらの部分のテキストコンテンツを分析します。MIMEメッセージ構造の解析と分析
私が説明します:
を私はIMAP経由の電子メールメッセージの非常に大きな金額を反復処理する必要があるプロジェクトの一部である(Pythonで)ライブラリを書いています。各メッセージについて、最小の解析量を必要とするメッセージのテキストコンテンツを分析するために必要なMIMEパートが何であるかを判断する必要があります(たとえば、テキスト/プレーンテキスト/ HTMLまたはリッチテキストを優先します) (text/plainが存在する場合は、一致するtext/htmlを無視します)。また、メッセージ本文全体をダウンロードすることなく(ネストされた部分(テキスト添付ファイル、転送されたメッセージなど)とすべてのものに対処する必要があります(あまりにも多くの時間と帯域幅を要します)。最終目標は、これらのメッセージのテキスト内容(マークアップ、メタデータ、バイナリデータなどを除く)に関する統計およびパターン解析を実行するために、後でこれらの部分のみを取得することです。
私が見てきたライブラリと例では、メッセージ構造体をアセンブルしてメッセージの内容を理解するためにメッセージ本文全体が必要です。私はBODYSTRUCTUREデータ項目でIMAP FETCHコマンドからの応答を使用してこれを達成しようとしています。
BODYSTRUCTUREには目標を達成するのに十分な情報が含まれている必要がありますが、構造と返されたデータはRFC(3501,2822,2045)に正式に文書化されていますが、入れ子や組み合わせ、非常に面倒でエラープルーンのタスク。
誰でもこのコードサンプル(コードはPythonで好きですが、どの言語でもよいでしょう)を達成するのに役立つライブラリはありますか?
私が言ったように、私はメッセージ全体をダウンロードせずにMIME構造を分析する必要があり、電子メールモジュールはメッセージを解析するためにメッセージ本文を必要とします。 – danielv
大丈夫です。これは興味深いようですが、私は実際のコードを見つけることができませんでした。http://mail.python.org/pipermail/python-dev/2009-January/085083.html –
本当に残念ですが、ソースコードが見つかりません。 – danielv