私は、ニュースウェブサイトの典型的なアーカイブされたものを含むすべてのリンクを抽出するニュースウェブサイトをクロールしています。サイトhereには、さらに多くのウェブサイトの記事を読み込むボタンがあります(View More Stories
)。今アーカイブされたリンクを含むウェブサイトからURLを抽出します
def find_urls():
start_url = "e.vnexpress.net/news/business"
r = requests.get("http://" + start_url)
data = r.text
soup = BeautifulSoup(data, "html.parser")
links = soup.findAll('a')
url_list = []
for url in links:
all_link = url.get('href')
if all_link.startswith('http://e.vnexpress.net/news/business'):
url_list.append(all_link)
return set(url_list)
以下、このコードが正常にかなりの数のURLをロードしますが、ボタン
<a href="javascript:void(0)" id="vnexpress_folder_load_more" data-page="2"
data-cate="1003895">
View more stories
</a>
のスニペットは、誰かが私を助けることができる方法私はもっとここに読み込むんです。ありがとう。
「投稿」リクエストからもっと多くのストーリーが来ています。したがって、まず次のページURLを指定してから、「投稿」リクエストを行います。これはあなたの次のページURL http://e.vnexpress.net/news/business?cate_id=1003895&page=2です。 2つのパラメータ 'cate_id'と' page'を渡す必要があります –
@akashkarothiyaあなたは私に詳しい説明を教えてくれますか?よろしく! – Jeremiah