一部のウェブサイト(example)には実際のコンテンツが表示される前に「読み込み中」の画面が表示されます。私はサイトをcurl
場合読み込み中のページの後ろにウェブサイトを隠す
は、私は私が望む内容ではなく、このロード画面を取得します。
この「リダイレクト」ページではなく、どのようにしてbashプログラムがウェブページの実際のコンテンツを取得できますか?
一部のウェブサイト(example)には実際のコンテンツが表示される前に「読み込み中」の画面が表示されます。私はサイトをcurl
場合読み込み中のページの後ろにウェブサイトを隠す
は、私は私が望む内容ではなく、このロード画面を取得します。
この「リダイレクト」ページではなく、どのようにしてbashプログラムがウェブページの実際のコンテンツを取得できますか?
現代のウェブサイトは、初期のウェブのウェブサイトと少なくとも非常にダイナミックな傾向があります。したがって、サイト運営者がコンテンツを隠す機会が多くあります。一般的なのはすべてをロードすることですが、Javascriptで非表示にします。この場合、Javascriptを無効にすると「隠れたコード」が実行されなくなります。
この場合、サイトはCloudflareをCDNとして使用しているようです。あなたの要求はCloudflareのサーバーに送られ、実際の基礎サイトに転送されます。 Cloudlfareがあなたのブラウザが脅威のように見える場合、いくつかの追加チェックを行うかもしれませんが、明らかに彼らはcurl
があったと判断しませんでした。彼らの決定が正確に何に基づいているのかを知る方法はありませんが、どのHTMLを提供するかを完全に制御できます。
それで、私はどのようにして私が望むコンテンツを手に入れますか? – theonlygusti
特定のことは言えませんが、PhantomJSを使用するなど、ブラウザをより緊密にエミュレートすることで成功する可能性があります。 –
@theonlygusti - PhantomJSはあなたの質問に対する答えです。私はそれを投稿しようとしていたが、それはすでに言及されて以来、それはコードを実行し、あなたに結果を与えるヘッドレスブラウザだ。そしてあなたはBASHスクリプトから発射することができます。 –
これを試すhttp://stackoverflow.com/questions/7734770/loading-div-before-the-entire-website-is-loaded – Naob
@Naobは私が求めているものにも近くない – theonlygusti
良い質問、私はdownvotesを理解していないと彼らが不公平に与えられた感じ。 – theonlygusti