0
私は、サイトに公開されているpdfsを毎日ダウンロードするためのスクリプトをPythonで作成しています。ボタンのクリックで到達可能なページのソースを取得する方法
ページのスクラップやファイルのダウンロードに問題はありませんでした。 私が現在直面している問題は、サイトにはさらに多くのページがあり、あなたが思っていることを知っているからです);
page 1 -> www.example.com/page1
page 2 -> www.example.com/page2 ...
しかし、問題は、私は
ページを変更するには、ページ番号に押すと、残念ながら、何もURLフィールドに起こらない、ということです。
私はクリックする必要があるページのボタンはこれらです:
唯一のことは、私は、コンソールでこのイベントだった見つけることができた
<nav class="text-center">
<ul class="pagination pagination-sm files_paging"><li><a data-page="1" aria-label="Previous"><span aria-hidden="true">«</span></a></li><li class="active"><a data-page="1">1</a></li><li><a data-page="2">2</a></li><li><a data-page="3">3</a></li><li><a data-page="4">4</a></li><li class="disabled"><a data-page="4"><span aria-hidden="true">...</span></a></li><li><a data-page="9">9</a></li><li><a data-page="2" aria-label="Next"><span aria-hidden="true">»</span></a></li></ul>
</nav>
持っている人はありますアイデアはありますか?
こんにちは、ありがとうございました! 「URLのパターンを推測してください」すでに試してみましたが、これで成功しませんでした:("同様の作業に興味があるなら、Seleniumや他の同様のブラウザベースのプログラマブルテストツールを試してみてください。" broswerを使うことはできません。 "ページのフロントエンド部分をダウンロードするHTMLおよびJavaScriptファイル)を検索し、URLが生成または取得した場所を検索してください。 "これについてもう少し詳しく説明できますか? – kefete
ここで説明するように、たとえばcurlまたはwgetを使用できます:http://stackoverflow.com/questions/32750276/how-to-download-entire-front-of-a-website- –
フォローするリンクがないので、オプション-rを指定してもwgetはうまくいきません – kefete