2017-06-15 8 views
0

私はhereからリンクを抽出しようとしています。記事の見出しと各リンクの簡単な要約があります。 出力には、記事の見出しと、同じページにある各記事の概要が含まれている必要があります。見出しと要約を含むRのWebクローラー

リンクを取得できます。あなたはどのように私は各リンクの見出しと要約を得ることができます示唆してください。以下の私のコードを見てください。

install.packages('rvest') 

#Loading the rvest package 
library('rvest') 
library(xml2) 


#Specifying the url for desired website to be scrapped 
url <- 'http://money.howstuffworks.com/business-profiles.htm' 


webpage <- read_html(url) 

pg <- read_html(url) 

head(html_attr(html_nodes(pg, "a"), "href")) 

答えて

1

私たちは、各ノードを検査し、関連情報を抽出するためにpurrrを使用することができます。

library(rvest) 
library(purrr) 

url <- 'http://money.howstuffworks.com/business-profiles.htm' 
articles <- read_html(url) %>% 
    html_nodes('.infinite-item > .media') %>% 
    map_df(~{ 
     title <- .x %>% 
      html_node('.media-heading > h3') %>% 
      html_text() 

     head <- .x %>% 
      html_node('p') %>% 
      html_text() 

     link <- .x %>% 
      html_node('p > a') %>% 
      html_attr('href') 

     data.frame(title, head, link, stringsAsFactors = F) 
    }) 

head(articles) 
#>                title 
#> 1        How Amazon Same-day Delivery Works 
#> 2    10 Companies That Completely Reinvented Themselves 
#> 3        10 Trade Secrets We Wish We Knew 
#> 4           How Kickstarter Works 
#> 5       Can you get rich selling stuff online? 
#> 6 Are the Golden Arches really supposed to be giant french fries? 
#>                                       head 
#> 1     The Amazon same-day delivery service aims to get your package to you in no time at all. Learn how Amazon same-day delivery works. See more » 
#> 2 You might be surprised at what some of today's biggest companies used to do. Here are 10 companies that reinvented themselves from HowStuffWorks. See more » 
#> 3    Trade secrets are often locked away in corporate vaults, making their owners a fortune. Which trade secrets are the stuff of legend? See more » 
#> 4  Kickstarter is a service that utilizes crowdsourcing to raise funds for your projects. Learn about how Kickstarter works at HowStuffWorks. See more » 
#> 5             Can you get rich selling your stuff online? Find out more in this article by HowStuffWorks.com. See more » 
#> 6  Are McDonald's golden arches really suppose to be giant french fries? Check out this article for a brief history of McDonald's golden arches. See more » 
#>                 link 
#> 1   http://money.howstuffworks.com/amazon-same-day-delivery.htm 
#> 2 http://money.howstuffworks.com/10-companies-reinvented-themselves.htm 
#> 3     http://money.howstuffworks.com/10-trade-secrets.htm 
#> 4      http://money.howstuffworks.com/kickstarter.htm 
#> 5 http://money.howstuffworks.com/can-you-get-rich-selling-online.htm 
#> 6     http://money.howstuffworks.com/mcdonalds-arches.htm 

必須コメント:この場合、私は彼らのTerms and conditionsに収穫に対しては免責事項を見ていないが、常に確認してくださいそれを掻き集める前のサイトの条件。

+0

ありがとうございました。私の無知をご容赦ください。このエラーが発生しましたloadNamespace(name)のエラー: 'dplyr'というパッケージがありません > head(articles) head(articles)のエラー:オブジェクト 'articles'が見つかりません – alyoung3344

+0

@ alyoung3344インストールが必要なようですおよび/または負荷dplyr。 'install.packages(" dplyr ");ライブラリ(dplyr) ' – RobertMc

関連する問題