私は仕事リストを掻き集めようとしています実際には何かが資格で求められる回数を数えます。ソースコード内の本文を見ることができません
問題は、特定のウェブサイトのソースコード内の本文を特定できないという問題です。この問題を克服できる方法はありますか?
私はこのタスクにbeautifulsoup4
を使用しています。 Hereは、これらのWebサイトの1つの例です。
私は仕事リストを掻き集めようとしています実際には何かが資格で求められる回数を数えます。ソースコード内の本文を見ることができません
問題は、特定のウェブサイトのソースコード内の本文を特定できないという問題です。この問題を克服できる方法はありますか?
私はこのタスクにbeautifulsoup4
を使用しています。 Hereは、これらのWebサイトの1つの例です。
その特定のサイトは、理由がわからないため、各広告の実際のコンテンツをiframeに「隠す」ようです。
実際のコンテンツはthis URLです(唯一の違いはURLに&in_iframe=1
というクエリパラメータが追加されているようです)。
ただし、ブラウザでそのURLを直接表示することはできません。iframeで表示されていないことが検出され、フレーミングページにリダイレクトされます。
あなたは、しかし、URLは、たとえば、cURLのとgrepを経由して実際のコンテンツが含まれていることを確認することができます
$ curl -k "https://jobs-te.icims.com/jobs/77373/data-scientist/job?hub=44&mode=job&iis=Job%2BBoard&iisn=Indeed&mobile=false&width=940&height=500&bga=false&needsRedirect=false&jan1offset=-300&jun1offset=-240&in_iframe=1" | grep quantitative
Daily work will involve performing one or more of the following activities: [...]
検出の一般的な技術を、ERM、ページ上でこのような技術は、ブラウザの現像液を用いています作成されたリクエスト(この場合、iframeのサブリクエスト)と自然にDOMツリー(そこにあるiframe)を見るためのツールです。
これが役に立ちます。
あなたが既にやろうとしたことを投稿してください。 – nir0s
助けを求めるときは、あなたの進歩を強調するサンプルコードを投稿する必要があります。 –