私の質問は、RがURLリンクを読むことができるかどうかです。私が使用している例は、説明の目的のためだけです。私が読んでいる(ランダムに選ばれた)次のウェブページがあるとします。あるURLから別のURLへの掻爬R
https://www.mcdb.ucla.edu/faculty
それは、私は、例えば次のようなWebページを読み、各URLのリンクにアクセスして、特定のキーワードの検索を行うことができますスクリプトを作成しようとしています、URLリンクを持つ教授名のリストを持っています彼らの出版物に関して。
私は現在、下記の特定のキーワードについて個々のウェブサイトをスキャンするスクリプトを用意しています。
library(rvest)
library(dplyr)
library(tidyverse)
library(stringr)
prof <- readLines("https://www.mcdb.ucla.edu/faculty/jsadams")
library(dplyr)
text_df <- data_frame(text = prof)
text_df <- as.data.frame.table(text_df)
keywords <- c("nonskeletal", "antimicrobial response")
text_df %>%
filter(str_detect(text, keywords[1]) | str_detect(text, keywords[2]))
これは、教授のWebページの「選択された出版物」の下での出版物1、2、4を返す必要があります。
教員リンク(https://www.mcdb.ucla.edu/faculty)から各教員のページを読んで、各教授に上記のキーワードを持つ出版物があるかどうかを調べるようにしています。
- 読む:https://www.mcdb.ucla.edu/faculty
- アクセス各リンク及び各教員のページ読み込み:
- 戻り値であれば、「キーワード」= TRUE:に「キーワード」を持っている
- 一覧教授の出版物やテキストを:
私はすでに各ページごとにこれを行うことができましたが、毎回各教授のページのURLをコピーして貼り付ける必要がないようにループや関数が好きかもしれません。
わずかな免責事項 - 私はUCLAまたはそのウェブサイトの教授とは関係がありません。教授のURLは私が教授のウェブページの教員に記載された最初の教授に過ぎないことを選択しました。