2017-10-22 7 views
1

私はPythonの初心者です。私は、基準が満たされた後にHTMLセルでURLを開くことができるウェブスクレイピングツールを構築しています。あらゆる種類の助けが役に立つでしょう。ありがとう!特定の条件が満たされたときに開かれるURL

これは私が働いているHMTLコードです:

<td data-href="https://www.example.com" data-th="Grade &amp; Rate"> 
    <div class="green inline-block m-right-10">A2</div> 
    <div class="inline-block">16%</div> 
</td> 

のdivクラス=「インラインブロック」の値が16%以上である場合、私は、データのhrefにURLを開きたいです。私はそれを行うために、浮動小数点数に最初にパーセントを変換する必要があることを認識しています。私が知りたいことは、URLを開く方法だけです。

私は今までスクリプトでビルドするためにセレンと美容液を使用しています。これは私のプロジェクトをどのように構築したかのスナップショットです。

chromedriver = 'C:\\chromedriver.exe' 
browser = webdriver.Chrome(chromedriver) 
.... 
html = browser.page_source 
soup = BeautifulSoup(html, "lxml") 
tags = soup('td') 
urllist = list() 
for tag in tags: 
    z = tag.get('data-href','abcde') 
    if z not in urllist: 
     urllist.append(z) 

答えて

-1

HTMLParserを使用してHTMLコードを読み取り、urllib.urlretrieveを使用してURLをダウンロードできます。

+0

私はテーブル内のHTMLを解析することができました。テーブル内の特定のブロックが自分の要件(16%を超える)と一致したときに、それをどのように参照するのか分かりません。 urllib.urlretrieveはページをダウンロードするためのものです。私はそれをダウンロードしないで開きたい私は自分のプロジェクトにセレンと美しい図書館の組み合わせを使用しています。 たとえば、私はbrowser.get(url)関数を使用して私のURLを開くためにセレンを使用しています –

関連する問題