見出しと要約を含むRのWebクローラー

私はhereからリンクを抽出しようとしています。記事の見出しと各リンクの簡単な要約があります。出力には、記事の見出しと、同じページにある各記事の概要が含まれている必要があります。見出しと要約を含むRのWebクローラー

リンクを取得できます。あなたはどのように私は各リンクの見出しと要約を得ることができます示唆してください。以下の私のコードを見てください。

install.packages('rvest') 

#Loading the rvest package 
library('rvest') 
library(xml2) 


#Specifying the url for desired website to be scrapped 
url <- 'http://money.howstuffworks.com/business-profiles.htm' 


webpage <- read_html(url) 

pg <- read_html(url) 

head(html_attr(html_nodes(pg, "a"), "href"))

出典

2017-06-15 alyoung3344

私たちは、各ノードを検査し、関連情報を抽出するためにpurrrを使用することができます。

library(rvest) 
library(purrr) 

url <- 'http://money.howstuffworks.com/business-profiles.htm' 
articles <- read_html(url) %>% 
    html_nodes('.infinite-item > .media') %>% 
    map_df(~{ 
     title <- .x %>% 
      html_node('.media-heading > h3') %>% 
      html_text() 

     head <- .x %>% 
      html_node('p') %>% 
      html_text() 

     link <- .x %>% 
      html_node('p > a') %>% 
      html_attr('href') 

     data.frame(title, head, link, stringsAsFactors = F) 
    }) 

head(articles) 
#>                title 
#> 1        How Amazon Same-day Delivery Works 
#> 2    10 Companies That Completely Reinvented Themselves 
#> 3        10 Trade Secrets We Wish We Knew 
#> 4           How Kickstarter Works 
#> 5       Can you get rich selling stuff online? 
#> 6 Are the Golden Arches really supposed to be giant french fries? 
#>                                       head 
#> 1     The Amazon same-day delivery service aims to get your package to you in no time at all. Learn how Amazon same-day delivery works. SeeÂ moreÂ Â» 
#> 2 You might be surprised at what some of today's biggest companies used to do. Here are 10 companies that reinvented themselves from HowStuffWorks. SeeÂ moreÂ Â» 
#> 3    Trade secrets are often locked away in corporate vaults, making their owners a fortune. Which trade secrets are the stuff of legend? SeeÂ moreÂ Â» 
#> 4  Kickstarter is a service that utilizes crowdsourcing to raise funds for your projects. Learn about how Kickstarter works at HowStuffWorks. SeeÂ moreÂ Â» 
#> 5             Can you get rich selling your stuff online? Find out more in this article by HowStuffWorks.com. SeeÂ moreÂ Â» 
#> 6  Are McDonald's golden arches really suppose to be giant french fries? Check out this article for a brief history of McDonald's golden arches. SeeÂ moreÂ Â» 
#>                 link 
#> 1   http://money.howstuffworks.com/amazon-same-day-delivery.htm 
#> 2 http://money.howstuffworks.com/10-companies-reinvented-themselves.htm 
#> 3     http://money.howstuffworks.com/10-trade-secrets.htm 
#> 4      http://money.howstuffworks.com/kickstarter.htm 
#> 5 http://money.howstuffworks.com/can-you-get-rich-selling-online.htm 
#> 6     http://money.howstuffworks.com/mcdonalds-arches.htm

必須コメント：この場合、私は彼らのTerms and conditionsに収穫に対しては免責事項を見ていないが、常に確認してくださいそれを掻き集める前のサイトの条件。

出典

2017-06-15 14:32:36 GGamba

ありがとうございました。私の無知をご容赦ください。このエラーが発生しましたloadNamespace（name）のエラー： 'dplyr'というパッケージがありません > head（articles） head（articles）のエラー：オブジェクト 'articles'が見つかりません – alyoung3344

@ alyoung3344インストールが必要なようですおよび/または負荷dplyr。 'install.packages（" dplyr "）;ライブラリ（dplyr） ' – RobertMc

見出しと要約を含むRのWebクローラー

答えて

関連する問題