2017-04-17 4 views
0

私は、サイトに公開されているpdfsを毎日ダウンロードするためのスクリプトをPythonで作成しています。ボタンのクリックで到達可能なページのソースを取得する方法

ページのスクラップやファイルのダウンロードに問題はありませんでした。 私が現在直面している問題は、サイトにはさらに多くのページがあり、あなたが思っていることを知っているからです);

page 1 -> www.example.com/page1 
page 2 -> www.example.com/page2 ... 

しかし、問題は、私は

pages

ページを変更するには、ページ番号に押すと、残念ながら、何もURLフィールドに起こらない、ということです。

console

私はクリックする必要があるページのボタンはこれらです:

唯一のことは、私は、コンソールでこのイベントだった見つけることができた

<nav class="text-center"> 
    <ul class="pagination pagination-sm files_paging"><li><a data-page="1" aria-label="Previous"><span aria-hidden="true">«</span></a></li><li class="active"><a data-page="1">1</a></li><li><a data-page="2">2</a></li><li><a data-page="3">3</a></li><li><a data-page="4">4</a></li><li class="disabled"><a data-page="4"><span aria-hidden="true">...</span></a></li><li><a data-page="9">9</a></li><li><a data-page="2" aria-label="Next"><span aria-hidden="true">»</span></a></li></ul> 
</nav> 

持っている人はありますアイデアはありますか?

答えて

0

上記のページでは、コンテンツを表示するためのJavaScriptフレームワークが使用されているものとします。以下のオプションを試してみてください。

  • URLのパターンを推測します。
  • ページのフロントエンド部分(HTMLおよびJavaScriptファイル)をダウンロードし、URLが生成または取得したポイントを検索します。
  • 類似のタスクに興味がある場合は、Seleniumまたは他の同様のブラウザベースのプログラム可能なテストツールを試してみる必要があります。
+0

こんにちは、ありがとうございました! 「URLのパターンを推測してください」すでに試してみましたが、これで成功しませんでした:("同様の作業に興味があるなら、Seleniumや他の同様のブラウザベースのプログラマブルテストツールを試してみてください。" broswerを使うことはできません。 "ページのフロントエンド部分をダウンロードするHTMLおよびJavaScriptファイル)を検索し、URLが生成または取得した場所を検索してください。 "これについてもう少し詳しく説明できますか? – kefete

+0

ここで説明するように、たとえばcurlまたはwgetを使用できます:http://stackoverflow.com/questions/32750276/how-to-download-entire-front-of-a-website- –

+0

フォローするリンクがないので、オプション-rを指定してもwgetはうまくいきません – kefete

関連する問題