私はRの新しい学習者です。rvestを使用してhtmlテーブルを抽出し、htmlフォームを送信することに興味があります。rvestを使用してhtmlテーブルを抽出する
今、私は中国のウェブサイトから有用な情報を得たいと思います。 URLは次のとおりです。
http://caipiao.163.com/award/cqssc/20160513.html
私はRStudioバージョン0.99.896でWindows 10 Professionalを使用しています、私はXPATHヘルパーアドオンで、ウェブブラウザとしてGoogle Chromeを使用します。
中国のサイトからメインのhtmlテーブルを抽出したいと思っています。それは、宝くじ当選番号に関する120のグループの情報を含んでいます。最初の1つ(001)は:98446で、最後の1つ(120)は:01798です。私は数字(001)〜(120)と当選番号:98446から01798だけを抽出したいと思います。
XPATHを取得するためにXPATHヘルパーとChrome Web開発を使用しました。
私が欲しい情報をXPATHがあると思う:
//html/body/article[@class='docBody clearfix']/section[@id='mainArea']/div[@class='lottery-results']/table[@class='awardList']/*[@id="mainArea"]/div[1]/table/tbody/tr[2]/td[1]
しかし、私はRStudioで次のコードを実行したとき、私は私が望む結果を得ることができません。 次は私のコードです:
> library(rvest)
Loading required package: xml2
> url <- "http://caipiao.163.com/award/cqssc/20160513.html"
> xp <- "//html/body/article[@class='docBody clearfix']/section [@id='mainArea']/div[@class='lottery-results']/table[@class='awardList']/*[@id='mainArea']/div[1]/table/tbody/tr[2]/td[1]"
>
> x <- read_html(url)
> y <- x %>% html_nodes(xpath=xp)
> y
{xml_nodeset (0)}
>
私のコードを見て、私はミスをした場合は私に知らせてください。それらの未知の漢字を無視することはできますが、それは重要ではありません。数字を取得したいだけです。
ありがとうございます! ジョン
あなたはそのコードを実行しましたか?私は、営業担当者がJSでいくつかの後処理を行っていることが分かりません – hrbrmstr
こんにちは、ありがとう、あなたの解決策は良いと思われます。しかし、私のRレベルは十分ではありません、私は結果を見ることができます:1 001 9 8 4 4 6 ...しかし、私は '001'と '9 8 4 4 6'他の役に立たない情報の? –