0
私は以下のパッケージで、ウェブスクレイピングを行うためにRを使用しますなどXML、RCurl、HTTR、ウェブスクレイピング:HTMLクロム開発ツールで見える構造ではなくhtmlTreeParse(R)との
が、私は問題を持っていますこのサイトを掻き集める:
url="http://www.elysee.fr/declarations/?search_index=2"
私は、フランス大統領の演説でテキストマイニングをやろうとしています。しかし、私は通常、HTMLページを読むことができません。
通常は、まずChrome開発ツールを使用してhtmlページを調べます。このページの
page = htmlTreeParse((url),useInternal = TRUE,encoding="utf8")
、クローム開発ツールで、私はこのclass:a[@class="main-link"]
ですべてのスピーチのためのhrefを得ることができることがわかります。だから私は通常行うでしょう:
links = unlist(xpathApply(page, '//a[@class="main-link"]', xmlGetAttr,"href"))
しかし、a[@class="main-link"]
はHTMLコードにありませんでした。私はhtmlページをダウンロードする際に、実際に、:
dput(getURL(url),"page.txt")
私は任意の(class="main-link"
)page.txt
で見つけることができません。