2017-11-13 14 views
0

新聞の記事を拝見しており、複数のノードを除外する方法を理解するのに苦労しています。 Rヘルプは、:not()がシンプルなセレクタのシーケンスを受け入れると言います。私は以下を試した複数のノードを抽出するRVest

zeit_url <- read.html("http://www.zeit.de/wissen/gesundheit/2017-09/aids-hiv-neuinfektionen-europa-virus-gesundheit) 

article <- zeit_url %>% 
    html_nodes('.article-page>:not(.ad-container, .cardstack)') %>% 
    html_text() 

2つのノードをカンマで区切ることはできません。 :not()にセレクタのシーケンスを正しく指定する方法はありますか?

私は答えを探すのに多くの時間を費やしましたが、私はR(およびHTML)を初めて使っています。これが明らかなことがあれば、辛抱強くお礼申し上げます。

+0

今、あなたのコードには引用符と括弧がありません。そのページには 'article-age'というクラスがありませんので、あなたが得ようとしているものは不明です。 – alistaire

+0

申し訳ありませんが、私は自分のコードで修正しました! –

答えて

0
library(rvest) 
zeit_url <- read_html("http://www.zeit.de/wissen/gesundheit/2017- 
      09/aids-hiv-neuinfektionen-europa-virus-gesundheit") 

article <- zeit_url %>% 
      html_nodes(".article-page>:not(.ad-container):not(.cardstack)") %>% 
      html_text() 
+0

喜んで助けてください。あなたは近くにいた。これがうまくいく場合は、回答を受け入れてください。 – Jai

関連する問題