今すぐthis linkにアクセスすると、おそらくVBScriptエラーが発生します。このフレームをどのように削り取ることができますか?
一方、this link firstとを訪問し、(上記のリンク)(同じセッション内)にアクセスすると、ページが表示されます。
このアプリケーションの設定方法では、最初のページは2番目(メイン)ページのフレームとして機能します。少しクリックすると、それがどのように機能するかがわかります。
私の質問:最初のページをPythonでスクラップするにはどうすればよいですか?私は考えることができるすべてを試しました - urllib、urllib2、mechanize - 私が得るのは500エラーまたはタイムアウトです。
私は答えがmechanizeにあると思っていますが、私のmechanicalize-fuはこれを解読するのに十分ではありません。誰も助けることができますか?
この最も優れた回答を編集して、URLセッショントラッキングとCookieセッショントラッキングを含める必要性を感じました。 –
私を正しい方向に押してくれてありがとう。あなたがクッキーの取り扱いで概説したアプローチは、まさに正しい解決策でした。そして、私にとって答えは機械化されたクッキーを手動で処理することでした[1]。 [et voila!] [2] [1] http://www.google.sourceforge.net/mechanize/doc.html [2] http://twitter.com/humboldtCHP – hanksims