2017-12-22 26 views
1

RプログラミングのRベストパッケージを使用して、下のリンクからウェブページをスクレープしようとしました。私は掻き取り RプログラミングWebスクレイピング

リンク

http://dk.farnell.com/c/office-computer-networking-products/prl/results

私のコードは次のとおりです。

library("xml2") 

library("rvest") 

url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results") 

tbls_ls <- url %>% 

html_nodes("table") %>% 

html_table(fill = TRUE)%>% 

gsub("^\\s\\n\\t+|\\s+$n+$t+$", "", .) 

View(tbls_ls) 

私の要件は、私は結果から\\n,\\tを削除することです。私は、複数のページを掻き集めるためにページネーションを与えたいので、このページをページネーションでスクラップすることができます。

+4

親切にサイトの条件をお読みください。http://dk.farnell.com/terms-of-access – hrbrmstr

+0

も...正しく 'rvest'を綴ることを学びます。 –

答えて

0

私はこれらの種類の質問に興味を持っていますので、私はあなたを助けようとします。私はこの物(またはそれに近いもの)の専門家ではありません。とにかく、私は今

library(rvest) 
library(rvest) 
library(tidyverse) 

urls <- read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results/") 
pag <- 1:5 

read_urls <- paste0(urls, pag) 
read_urls %>% 
    map(read_html) -> p 

...それは一種の、このようにすべきだと思い、私はすべての「\\ n」は、データ・セットの「\\ t」のパターンを見ていません。それにもかかわらず、特定の文字列を検索する場合は、このようにすることができます。

library(stringr) 
str_which(urls, "[your]string_here") 

以下のリンクは非常に便利です!

http://dept.stat.lsa.umich.edu/~jerrick/courses/stat701/notes/webscrape.html

関連する問題