0
を使用してGEOデータセットからの検索結果のURLリンクを取得します。 <div class="pagination">
から、それは言う:私は、検索結果のページから各記事のすべてのリンクを取得したいページネーション
<a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Next page of results" class="active page_link next" href="#" sid="3" page="2" accesskey="k" id="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page">Next ></a>
は、したがって、私は、その内容を取得するためにBeautifulSoupを使用するために、次のページのURLを取得するために、Pythonのurllibは使用:
param2=urllib.urlencode({'sid':3,'page':2,'accesskey':'k','id':'EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page'})
f2=urllib.urlopen('https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer',param2)
soup2 = BeautifulSoup(f2.read(), 'html.parser')
さて、問題はさらにI場合、ありますページ番号を1から10に変更すると、常にページ1の内容が表示されます。誰かが間違ったことを教えていただけますか?
は申し訳ありませんが、私はかなり理解していない(全てのデータが示されていない)私が正しいURLを推測するために、いくつかの組み合わせを試してみて意味ですか? – paladin
私はあなたのデータを取得するための "魔法の" URLを構築する必要はありませんが、あなたは 'param2'で送信する膨大な量のデータを探索しなければならないようです。私の意見では、セレンなどのツールを使うのはずっと簡単です。 –
ありがとう、私は彼らと少し遊んでみるよ。 – paladin