2017-05-06 5 views
0

pubMedをスクラップしたいのですが、URLにページ番号が含まれていないことがわかりました。ページをページごとにスクラップする方法

たとえば、https://www.ncbi.nlm.nih.gov/pubmed?term=(cancer)%20AND%20(%222014%22%5BDate%20-%20Publication%5D%20%3A%20%222017%22%5BDate%20-%20Publication%5D) < ---これが最初のページのURLです。ただし、次のページを手動でクリックすると https://www.ncbi.nlm.nih.gov/pubmed < ---次のページ

このように私はページ番号を変更することでスケープできません。

この問題を解決するにはどうすればよいですか?

価値を提供する要素の名前は次のとおりです:

EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_Pager.cPage 

あなたはカールを使用している場合は、変更

感謝〜

答えて

0

あなたはPOSTリクエストでページ番号を指定することができますPOSTへのリクエストを作成し、上記のキーを投稿データに追加し、必要なページに値を設定します。有効なリクエストを得るために、POSTに他の値を含める必要があるかもしれませんが、ページのソースを調べて、他の値がどのような値であるかを調べるだけです。

関連する問題