私はinc5000のすべての企業とその業界、場所、収益、CEOのExcelリストをコンパイルしようとする初心者のプログラマーです。手動で5000を入力する必要がないように、これを自動化する方法はありますか?ウェブサイトのデータをExcelワークシートにスクラップする方法は?
いくつかの問題:
-The inc5000リストはページだけで50社を表示し、次のページにスクロールすると、URLを変更しません。 URLをHTMLに変換しようとしましたが、実際にHTMLコードに表示されるメタデータはありません(https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g)。
- この1つのスクロールページ(https://www.inc.com/profile/loot-crate)に必要なすべての情報がありますが、ページを進むにつれて各企業のURLが変更されます。 5000個のURLを手動で変更せずにこのサイトからデータを取得する方法はありますか?
私はプログラミングが本当に新しく、HTML/JavaScript/Webデザインについては何も知らない。基本的なJavaのみを知っている。私は本当に解決策への助けや潜在的なリードを感謝します。
ようこそ。 [質問のガイドライン](https://stackoverflow.com/help/mcve)を参照してください。これまでに何を試しましたか?いくつかのコードをここに掲載して、 のためのコードの特定の問題を特定してください。 – ecain
私はこの問題にどのように接近して開始するかについて質問しているので、間違ったコミュニケーションについて申し訳ありません。コードはありません。 – sherf
これはもっと難しいことかもしれませんが、JavaでSeleniumを呼び出してブラウザを自動化して各フィールドの値を取得し、Excelに書き出してから次の会社のボタンにヒットするものを書くことができます。 –