rubikによると、レートはJSを使用して動的に読み込まれます。幸いなことに、コンテンツの構造は比較的単純です。ここでは分析方法は次のとおりです。
Chrome(または他のブラウザ)で新しいタブを開き、右クリックしてview-source
を選択します。 Network
タブに切り替え、preserve log
オプションを確認します。
今、ウェブサイトhttps://www.popular.com/en/mortgages/
を開きます。ロードされた内容は左側のパネルに表示されます。

各項目をチェックして、あなたがスクラップにしたいものを見つけるまで、そのPreview
内容を分析。ここに私が見つけたのは、2.75%
は、ウェブサイトに表示される住宅ローンの金利の値と一致します。
今度はHeaders
タブに切り替え、Request URL
を確認してください。これがサーバーに送信された最後の要求です。

次のステップは、私がtextcolor
とbackgroundcolor
は、CSSの情報を示しているので、私はそれらを削除し、URLがまだ有効で見つけたことを推測リクエストURLにhttps://apps.popular.com/navs/rates_wm_modx.php?id_rates=1&textcolor=3784D2&backgroundcolor=ffffff&t=1
を分析することです。 https://apps.popular.com/navs/rates_wm_modx.php?id_rates=1&t=1
id_rates
がどのanalyzationのない住宅ローンの金利の順序を示すことは明らかである:
は、今、私たちは、シンプルなURLを持っています。質問は、t
は何を意味していますか?
これは、他のプレビューの内容を分析してルールを見つけることで解決できます。ここでは、そのプロセスをスキップして、結論を出したいと思います。
これらを行った後、今あなたが直接要求のURLからコンテンツをスクラップすることができます:
from urllib2 import urlopen
import re
file=urlopen('https://apps.popular.com/navs/rates_wm_modx.php?id_rates=1&t=1')
annual_interest = re.findall(r"\d+\.\d+", str(file.read()))[0]
#the annual interest is 2.75
「.div」の部分は必要ありません。 – Mako212
@jordiburgos重複ではなく、ここでの問題は異なります。 – rubik