2008-08-05 17 views
16

私は自分のstackoverflowページを取得して前日のページとは異なるので、質問、回答、ランキングなどの変更概要を見ることができます。ウェブページをカールさせる方法

残念ながら、この仕事をするためにクッキーなどの正しいセットを手に入れません。何か案は?

また、ベータ版が終了したら、ログインせずに自分のステータスページにアクセスできますか?

答えて

9

あなたのステータスページは、ログインすることなく利用可能です(logoutをクリックして試してください)。ベータクッキーが無効になっていると、あなたとあなたのステータスページの間に何もないでしょう。 wgetのために

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html 
3

ナイスアイデア:)私はあなたが使用したと推測

のwgetの

--load-cookies (filename) 

少しを助けるかもしれないが、ブラウザを模倣する(PerlやPythonで)Mechanizeのようなものを使用する方が簡単かもしれませんより完全に良いクモを取得する。

2

私はクッキーはどちらか動作するように取得する方法を見つけ出すことができませんでしたが、私がログアウトしている間、私は私のブラウザで自分のステータスページに取得することができたので、私stackoverflowが公開されると、これが動作すると仮定します。

これは興味深いアイデアですが、基礎となるHTMLコードの差分も取り上げませんか?実際のコンテンツではなくhtmlのdiffで終わることを避ける戦略がありますか?

+0

私は時間があれば、私は[美しいスープ](http://www.crummy.com/software/BeautifulSoup/)(か何かになるだろうデータをきれいにすくい取るためのスクリプトですが、今は必要なテキスト行を取り除いています。 –

2

そして、ここではどのような作品です...

curl -s --cookie soba=. http://stackoverflow.com/users 
6

Mark Harrison

から、そして、ここではどのような作品だ...

-s --cookie蕎麦=カール。 https://stackoverflow.com/users

そしてwgetのため:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html 
関連する問題