ウェブページの相対URLの代わりにurls absoluteを抽出することは可能ですか、whith beautifulsoup(python)ですか?例えばsanitize && build url
、私はhttp://bing.comをスクラップし、hrefのリンクを尋ねる:soup.findAll( 'A')にリンクするために を:
それは返すだけでなく、絶対URLより相対:
http://bing.com/?scope=web&FORM=Z9LH
/maps/?FORM=Z9LH3
/news?FORM=Z9LH4
/explore?FORM=Z9LH5
/profile/history?FORM=Z9LH6
http://fr.msn.com/
http://www.office.com?WT.mc_id=O16_BingHP
多くのありがとうございます。
@Aonymousは、あなたが解析しているものと特定する必要があり、JavaScriptの'のようなのhrefがありますすべてのリンクを見つけて、それが動作することを期待してください。 –
はい、それは私がリンクに感謝する関数を探している理由です。今、私は多くの場合、これを処理します。 – Anonymus