1
"rvest"で対処して遊んでいます。 "read_html"でデータを取得するのは問題ありません。webscraping:手動でタグを置き換える
library(rvest)
# suppressMessages(library(dplyr))
library(stringr)
library(XML)
# get house data
houseurl <- "http://boekhoff.de/immobilien/gepflegtes-zweifamilienhaus-in-ellwuerden/"
house <- read_html(houseurl)
house
データの処理に問題があります。私の問題はソースでコメントされています。今、「BR」を交換することなく、
houseattribut <- house %>%
html_nodes(css = "div.col-2 li p.data-left") %>%
html_text(trim=TRUE)
# shows "Error in UseMethod("xml_find_all") : ... "
# but all attributes are shown on screen
houseattribut
を動作しないよう、詳細を読んで、それはそう
## eleminating <br>-tags in address
# using the following commands causes error using "html_nodes"
str_extract_all(house,"<br>") ## show all linebreaks
# replacing <br> in whitespace " ",
house <- str_replace_all(house,"<br>", " ")
は、手動でその作業を - タグが、「HTML_TEXTは」
一緒に文字列を締め私が間違ってやっているhousedetails <- house %>%
html_nodes(css = "div.col-2 li p.data-right") %>%
html_text()
housedetails
# the same error shows "Error in UseMethod("xml_find_all") : ... "
# but all details are shown on screen
housedetails[4]
# in the source there is: "Ellwürder Straße 17<br>26954 Nordenham"
# at <br>-tag should be a whitespace
任意のヒント?
どうもありがとう、それは私が探しているものです。 – wattnwurm