2017-08-14 7 views
1

私はinc5000のすべての企業とその業界、場所、収益、CEOのExcelリストをコンパイルしようとする初心者のプログラマーです。手動で5000を入力する必要がないように、これを自動化する方法はありますか?ウェブサイトのデータをExcelワークシートにスクラップする方法は?

いくつかの問題:

-The inc5000リストはページだけで50社を表示し、次のページにスクロールすると、URLを変更しません。 URLをHTMLに変換しようとしましたが、実際にHTMLコードに表示されるメタデータはありません(https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g)。

- この1つのスクロールページ(https://www.inc.com/profile/loot-crate)に必要なすべての情報がありますが、ページを進むにつれて各企業のURLが変更されます。 5000個のURLを手動で変更せずにこのサイトからデータを取得する方法はありますか?

私はプログラミングが本当に新しく、HTML/JavaScript/Webデザインについては何も知らない。基本的なJavaのみを知っている。私は本当に解決策への助けや潜在的なリードを感謝します。

+0

ようこそ。 [質問のガイドライン](https://stackoverflow.com/help/mcve)を参照してください。これまでに何を試しましたか?いくつかのコードをここに掲載して、 のためのコードの特定の問題を特定してください。 – ecain

+0

私はこの問題にどのように接近して開始するかについて質問しているので、間違ったコミュニケーションについて申し訳ありません。コードはありません。 – sherf

+0

これはもっと難しいことかもしれませんが、JavaでSeleniumを呼び出してブラウザを自動化して各フィールドの値を取得し、Excelに書き出してから次の会社のボタンにヒットするものを書くことができます。 –

答えて

2

はここで簡単な方法です:ページへ

Goは、デバッグツール、選択XHR(データのみの通話にフィルタリングする)の「ネットワーク」タブに移動し、F12キーを打った後の一番下までスクロールページ。このページは、デバッグツールでアクセスできる各会社のクエリを作成します。

すべてのページを取得したら、ファイル名リストのすべての行を左に強調表示し、右クリックして.harファイルに保存できます。

そこから、jsonを引き出すためのスクリプトを書くだけで、あなたは設定されています。スタックオーバーフローへ

enter image description here

関連する問題