私はウェブスクレイピングには新しいので、楽しみのためにkeurigウェブサイトを掻き集め、販売するkカップのいくつかに関する情報を抽出することによって学びたいと思っていました。私の目標は、kカップのページに行き、すべてのkカップをクリックして、カフェイン、ローストカラー、および起源のような情報を抽出します。私は後でそれに取り組むことができます。私はCSSを見つけたり、オブジェクトをクリックして余分な情報を取得するプロセスを自動化する方法を見つけるのに苦労しています。私はこれをしました:Rをクリックしてリンクをクリックする必要があるウェブデータをスクラップする方法は?
library(rvest)
keurig <- read_html("http://www.keurig.com/beverages/k-cup-pods")
# Grab the CSS Nodes from the website
keurig.html <- html_nodes(keurig, ".keurig_card")
keurig.text <- html_text(keurig.html)
# Print the text
keurig.text
多くのタブと改行文字の間にいくつかのコーヒー名を入れてしまいました。すべてのkカップについての情報を取得するために、このデータをどのくらい正確に掻き分けますか?
それは(私はキューリグ製にアクセスすることができない非構造化データである場合。 com)、あなたは正規表現を使用する必要があります。 https://stackoverflow.com/documentation/r/1123/pattern-matching-and-replacement#t=201707310419474805317 CSS-Tagに関連する正規表現がかなりうまくいくと思います。 – Jan