RプログラミングWebスクレイピング

RプログラミングのRベストパッケージを使用して、下のリンクからウェブページをスクレープしようとしました。私は掻き取り RプログラミングWebスクレイピング

リンク

は http://dk.farnell.com/c/office-computer-networking-products/prl/results

私のコードは次のとおりです。

library("xml2") 

library("rvest") 

url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results") 

tbls_ls <- url %>% 

html_nodes("table") %>% 

html_table(fill = TRUE)%>% 

gsub("^\\s\\n\\t+|\\s+$n+$t+$", "", .) 

View(tbls_ls)

私の要件は、私は結果から\\n,\\tを削除することです。私は、複数のページを掻き集めるためにページネーションを与えたいので、このページをページネーションでスクラップすることができます。

出典

2017-12-22 karthik_19942017

親切にサイトの条件をお読みください。http://dk.farnell.com/terms-of-access – hrbrmstr

も...正しく 'rvest'を綴ることを学びます。 –

私はこれらの種類の質問に興味を持っていますので、私はあなたを助けようとします。私はこの物（またはそれに近いもの）の専門家ではありません。とにかく、私は今

library(rvest) 
library(rvest) 
library(tidyverse) 

urls <- read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results/") 
pag <- 1:5 

read_urls <- paste0(urls, pag) 
read_urls %>% 
    map(read_html) -> p

...それは一種の、このようにすべきだと思い、私はすべての「\\ n」は、データ・セットの「\\ t」のパターンを見ていません。それにもかかわらず、特定の文字列を検索する場合は、このようにすることができます。

library(stringr) 
str_which(urls, "[your]string_here")

以下のリンクは非常に便利です！

http://dept.stat.lsa.umich.edu/~jerrick/courses/stat701/notes/webscrape.html

出典

2017-12-26 16:02:19 ryguy72

RプログラミングWebスクレイピング

答えて

関連する問題