私は新聞サイトにアクセスし、そのコピーをPDFでダウンロードしたいと考えています。このサイトでは、自分のメールアドレスとパスワードを使用してログインする必要があり、その後、それらのPDF URLにアクセスすることができます。Wgetを使用してクッキーの設定が必要なサイトからPDFファイルをダウンロードする
wgetで「自分のセッションを設定する」のに問題があります。私は私のブラウザからサイトにログインすると、それは2つのクッキーの値を設定します。
[email protected]
Password=12345
私が試した:
wget --post-data "[email protected]&Password=12345" http://epaper.abc.com/login.aspx
をしかし、ただのログインページをダウンロードし、ローカルに
それを保存していることログインページのフォームには、
txtUserID
txtPassword
のような2つのフィールドと、このようなラジオボタンがあります。
<input id="rbtnManchester" type="radio" checked="checked" name="txtpub" value="44">
別のボタン:
<input id="rbtnLondon" type="radio" name="txtpub" value="64">
私はlogin.aspxのページにこれを投稿した場合、私がすれば、私は同じ出力
wget --post-data "[email protected]&txtPassword=12345&txtpub=44" http://epaper.abc.com/login.aspx
を得る:
- 保存クッキーabc_cookies.txt
itデフォルトのコンテンツ以外のものはないようです。最後の場合
私はそれを言うだけでなく--debugない場合:
...
Set-Cookie: ASP.NET_SessionId=05kphcn4hjmblq45qgnjoe41; path=/; HttpOnly
...
Stored cookie epaper.abc.com -1 (ANY)/<session> <insecure> [expiry none] ASP.NET_SessionId 05kphcn4hjmblq45qgnjoe41
Length: 107253 (105K) [text/html]
Saving to: `login.aspx'
...
Saving cookies to abc_cookies.txt.
しかし、abc_cookies.txtはONLY次のことを示しています
# HTTP cookie file.
# Generated by Wget on 2011-08-16 08:03:05.
# Edit at your own risk.
ええと、私はあなたのクロスポストにhttp://superuser.com/questions/323971/using-wget-to-download-pdf-files-from-a-site-that-requires-cookies-to-beで答えました-セット – EightBitTony