電子メールでHTMLコンテンツを解析する

私の電子メールを読むためにpythonスクリプトを書こうとしています。私はTo、From、Subjectのようなものをほとんど得ることができます。しかし、bodyでは、以下のようにテキストとHTMLコードも取得します。以下は電子メールでHTMLコンテンツを解析する

完全なコードのための電子メール

email_message = email.message_from_string(raw_email) 
print 'To:', email_message['To'] 
print 'Sent from:', email_message['From'] 
print 'Date:', email_message['Date'] 
print 'Subject:', email_message['Subject'] 
print '*'*30, 'MESSAGE', '*'*30 
maintype = email_message.get_content_maintype() 
#print maintype 

if maintype == 'multipart': 
    for part in email_message.get_payload(): 
      if part.get_content_maintype() == 'text': 
       print part.get_payload() 
elif maintype == 'text': 
    print email_message.get_payload() 
print '*'*69

Gitのリンクからコンテンツを抽出したコードの一部です：そのHTMLを取り除くためにどのようにEmail-parser

をコードを取得し、プレーンテキストのみを取得しますか？

出典

2017-11-15 Abhinav Anand

あなたの問題は何ですか？ – DRPK

@DRPK申し訳ありませんが、私は言及を忘れていました。ありがとうございました –

メッセージの本文はMIMEエンコードされているため、テキストには平文とHTMLの両方の形式のテキストが含まれています。本文の平文を取得するには、まずメッセージをMIMEデコードする必要があります。あなたは、Pythonのemail packageを使ってMIMEデコードを行うことができます。詳細については、this questionを参照してください。

出典

2017-11-15 21:24:51 mti2935

ありがとうございました。それは助け:) –

電子メールでHTMLコンテンツを解析する

答えて

関連する問題