PHPを使用してサイトのHTMLコンテンツを読み込み、特定のデータ用にマイニングしたいと考えています。サイトに「welcome」または「enter」画面をバイパスしますか?
しかし、サイトが「ようこそ」のようなページを読み込んだとき、ユーザーはボタンを押して次のページに移動する必要があります。ユーザーがこれを一度やった場合、ウェルカムページはもうロードされません(これはクッキーによるものと思われます)。
この「ようこそ」ページの背後にあるHTMLデータを読み込む必要があります。
このようなウェルカムページを迂回してそのページにアクセスする方法はありますか?おそらく、ユーザーが前にサイトに行ったことを示すハードコードされたCookieをサーバーに手動で送信することによって、
サイトには、年齢リクエストのCookieとセッションIDがあるようです。これは私がHTTP要求から得たものです:
Cookie: age_check=1; expires=Tue, 03 Jan 2012 11:57:23 GMT; path=/; domain=.youporn.com
Cookie: screen_width=1024; expires=Tue, 03 Jan 2012 11:57:23 GMT; path=/; domain=.youporn.com
Cookie: sid=rcAYeE8BssaK93YGZz82Ag==; expires=Wed, 01-Jan-14 13:36:06 GMT; domain=.youporn.com; path=/
サイトコンテンツを取得するにはどのような方法がありますか? 'curl'ですか? –
サイトの設計方法によって異なります。ハードコーディングされたクッキーで動作する可能性があります。そうでないかもしれない。サイトが実際にクッキーを保存しているかどうか、実際に調査したことがありますか、まあまあですか? –
私はちょうど推測しています。 @refp私は単にfile_get_contentsまたはDOMDocument :: load()を使用しています – TravisG