1
を取得するコードです:解析アクティビティ不安定、ここではいくつかのランダムな結果
# -*- coding: utf-8 -*-
import urllib2
from bs4 import BeautifulSoup
with open('/users/Rachael/Desktop/CheckTitle.csv', 'r') as readcsv:
for row in readcsv.readlines():
try:
openitem = urllib2.urlopen(row).read()
soup = BeautifulSoup(openitem, 'lxml')
print soup.head.find('title').get_text()
except urllib2.URLError:
print 'passed'
pass
私は以下の結果を得ている:
(A):
passed
贝贝网京外裁员10%:团队要保持狼性和危机感_新浪财经_新浪网
垂直电商贝贝网被曝裁员 回应称只是10%人员优化_新浪财经_新浪网
(B):
passed
Traceback (most recent call last):
File "C:/Users/Rachael/PycharmProjects/untitled1/GetTitle.py", line 10, in
<module>
print soup.head.find('title').get_text()
AttributeError: 'NoneType' object has no attribute 'find'
(c):
passed
贝贝网京外裁员10%:团队要保持狼性和危机感_新浪财经_新浪网
Traceback (most recent call last):
File "C:/Users/Rachael/PycharmProjects/untitled1/GetTitle.py", line 10, in <module>
print soup.head.find('title').get_text()
AttributeError: 'NoneType' object has no attribute 'find'
私はこれらの3つのタイプの結果をランダムに取得しています。
代わりにsoup.titleまたはsoup.title.textまたはsoup.title.stringを実行すると、同じ/類似のエラーが返されます。
助けてください!
私はこれを記述するのが非常に難しいと感じました。これはどんな方法でもダップであれば、私には同様の投稿へのリンクをください。
ありがとうございます!
エラーのあるページには「
」というタグがありますか? – tayfunええ、私はすべてのWebページをチェックしました
タグ – RachaelT