0
htmlファイルからいくつかの情報を抽出しています。しかし、いくつかのファイルは、タグ内ではありませんbeautifulsoupの解析htmlタグの例外
AttributeError: 'NoneType' object has no attribute 'strip'
を返すタグ<p class="p p1"> date </p>
、およびファイルのいくつかの日付を持っていません。
<time content="2005-11-11T19:09:08Z" itemprop="datePublished">
Nov. 11, 2005 2:09 PM ET
</time>
この2つの問題を解決するにはどうすればよいですか?
マイコード:
month_list = ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October','November', 'December', 'Jan', 'Feb', 'Aug', 'Oct', 'Dec']
def first_date_p():
for p in soup.find_all('p', {"class": "p p1"}):
for month in month_list:
if month in p.get_text():
first_date_p = p.get_text()
date_start = first_date_p.index(month)
date_text = first_date_p[date_start:]
return date_text
else:
#if the tag exist, but do not have date.
month = 'No Date/Error'
return month.strip()
あなたがそのあなたの日付の特性を探していることから始めるべきだと私には見えますそのすべての* HTMLファイルに適用します。実際には、複数の日付の形式があり、それぞれ別々に処理する必要があります。何種類のフォーマットがありますか? –