データはページ内に埋め込まれていないが、それらは、後続のAPI呼び出しを使用して取得されています
上記は1ページごとに繰り返されます(したがって、新しいトークン&ページごとにIDのリストが必要です)。このプロセスは、Chromeの[ネットワーク]タブのコンソールを使用して確認できます。
最初のPOST
リクエストはJSON出力を行いますが、2番目のリクエスト(GET
)はJSONオブジェクトのプロパティにHTMLデータを与えます。
次は、会社フィルタを抽出します。
private static CompanyFilter getCompanyFilter(final String filter, final int page) throws IOException {
String response = Jsoup.connect("https://angel.co/company_filters/search_data")
.header("Content-Type", "application/x-www-form-urlencoded;charset=UTF-8")
.header("X-Requested-With", "XMLHttpRequest")
.data("filter_data[company_types][]=", filter)
.data("sort", "signal")
.data("page", String.valueOf(page))
.userAgent("Mozilla")
.ignoreContentType(true)
.post().body().text();
GsonBuilder gsonBuilder = new GsonBuilder();
Gson gson = gsonBuilder.create();
return gson.fromJson(response, CompanyFilter.class);
}
その後、次の抽出企業:
private static List<Company> getCompanies(final CompanyFilter companyFilter) throws IOException {
List<Company> companies = new ArrayList<>();
URLConnection urlConn = new URL("https://angel.co/companies/startups?" + companyFilter.buildRequest()).openConnection();
urlConn.setRequestProperty("User-Agent", "Mozilla");
urlConn.connect();
BufferedReader reader = new BufferedReader(new InputStreamReader(urlConn.getInputStream(), "UTF-8"));
HtmlContainer htmlObj = new Gson().fromJson(reader, HtmlContainer.class);
Element doc = Jsoup.parse(htmlObj.getHtml());
Elements data = doc.select("div[data-_tn]");
if (data.size() > 0) {
for (int i = 2; i < data.size(); i++) {
companies.add(new Company(data.get(i).select("a").first().attr("title"),
data.get(i).select("a").first().attr("href"),
data.get(i).select("div.pitch").first().text()));
}
} else {
System.out.println("no data");
}
return companies;
}
主な機能:
public static void main(String[] args) throws IOException {
int pageCount = 1;
List<Company> companies = new ArrayList<>();
for (int i = 0; i < 10; i++) {
System.out.println("get page n°" + pageCount);
CompanyFilter companyFilter = getCompanyFilter("Startup", pageCount);
pageCount++;
System.out.println("digest : " + companyFilter.getDigest());
System.out.println("count : " + companyFilter.getTotalCount());
System.out.println("array size : " + companyFilter.getIds().size());
System.out.println("page : " + companyFilter.getpage());
companies.addAll(getCompanies(companyFilter));
if (companies.size() == 0) {
break;
} else {
System.out.println("size : " + companies.size());
}
}
}
Company
、CompanyFilter
& HtmlContainer
がモデルですクラス:
class CompanyFilter {
@SerializedName("ids")
private List<Integer> mIds;
@SerializedName("hexdigest")
private String mDigest;
@SerializedName("total")
private String mTotalCount;
@SerializedName("page")
private int mPage;
@SerializedName("sort")
private String mSort;
@SerializedName("new")
private boolean mNew;
public List<Integer> getIds() {
return mIds;
}
public String getDigest() {
return mDigest;
}
public String getTotalCount() {
return mTotalCount;
}
public int getpage() {
return mPage;
}
private String buildRequest() {
String out = "total=" + mTotalCount + "&";
out += "sort=" + mSort + "&";
out += "page=" + mPage + "&";
out += "new=" + mNew + "&";
for (int i = 0; i < mIds.size(); i++) {
out += "ids[]=" + mIds.get(i) + "&";
}
out += "hexdigest=" + mDigest + "&";
return out;
}
}
private static class Company {
private String mLink;
private String mName;
private String mDescription;
public Company(String name, String link, String description) {
mLink = link;
mName = name;
mDescription = description;
}
public String getLink() {
return mLink;
}
public String getName() {
return mName;
}
public String getDescription() {
return mDescription;
}
}
private static class HtmlContainer {
@SerializedName("html")
private String mHtml;
public String getHtml() {
return mHtml;
}
}
完全なコードは、これは私が探していたものだけだったhere
も可能です。 あなたは命を救っています。ありがとうございます<3 – vidhi
もう1つ問題があります。 行: 会社(data.get(i).select( "a")。first()。attr( "title")を置き換えます( "\\\" "、" ")、 Doesn '会社の完全なタイトルを与える;それに2つの単語がある場合、例えば「Abd Motors」と言うと、あなたは「Abd」を取得するだけです@Bertrand – vidhi
@vidhi ok私は答えを更新しました。 GET https://angel.co/companies/startupsはJSONデータを提供していましたが、Jsoupで解析する予定ですが、 'ignoreContentType'を指定するとjson内のエスケープされた引用符が正しく解析されないので、少し難解です。 Gsonでオブジェクトを解析して上記を更新し、htmlを抽出すると、それらのすべての醜い 'replac e(" \\\ ""、 "") –