これは複数の質問ですので、私は謝罪します。私はairportname=XXX
を持っていないリンクを除外したいPythonは文字列とリンクし、大文字でリンクしています
:私は、Webページからリンクを抽出するためにBeautifulSoupを使用しています
は、ここに
質問コードされ、その結果
私は、
airportname=XXX
のリンクをたどって、次のページのテキストの文字列。
ご理解とご協力をいただきありがとうございます。最初の部分については
これは複数の質問ですので、私は謝罪します。私はairportname=XXX
を持っていないリンクを除外したいPythonは文字列とリンクし、大文字でリンクしています
:私は、Webページからリンクを抽出するためにBeautifulSoupを使用しています
は、ここに
質問コードされ、その結果
私は、airportname=XXX
のリンクをたどって、次のページのテキストの文字列。
ご理解とご協力をいただきありがとうございます。最初の部分については
あなたは、このタスクを完了するために第二の部分については
for url in results:
#hit the url and get the response as text and just search the text for the query string as in part 1
こんにちはMithilesh、あなたの迅速な対応に感謝します。つまり、XXXはリンクごとに異なります(約100個あります)。これは、米国の3桁の空港コードの場合です。例えば。ダラスはDFW、ロサンゼルスはLAXなど – Cambo415
スニペットを更新 –
を正規表現
import re
XXX=[]
for result in results:
match = re.match(r'(airportname=\w\w\w)', result)
if match:
XXX.append(match.group(1))
を使用することができ、実際にはURLが必要であろう。リンクが適しているかどうかを確認するには、次のアプローチを使用することができます。
from bs4 import BeautifulSoup
import re
html_page = urllib2.urlopen('http://www.website.com/airports')
soup = BeautifulSoup(html_page)
for link in soup.findAll('a', href=True):
href = link['href']
if re.search('airportname=\w\w\w$', href):
print href
次は、href
あなたが得るに基づいて完全なURLを作成する必要があります。
コードの画像を使用しないでください。質問にコードを挿入してください。 –
「ヘルプ」を使用しないように約30分間試しました。申し訳ありません – Cambo415