私はRでxml2パッケージを使用して、Webページからデータをスクレイプしています。私はこすりしたいテキストは、以下に示すタグで囲まれていますサブストリングを含む属性のRでのWebスクレイピング
<td>
<a href="javascript:WebForm_DoPostBackWithOptions(new
WebForm_PostBackOptions("ctl00$CenterContent$ctl01",
"", true, "", "", false,
true))">Species A
</a></td>
<td>
<a href="javascript:WebForm_DoPostBackWithOptions(new
WebForm_PostBackOptions("ctl00$CenterContent$ctl02",
"", true, "", "", false,
true))">Species B </a></td>
<td><a href="javascript:WebForm_DoPostBackWithOptions(new
WebForm_PostBackOptions("ctl00$CenterContent$ctl03",
"", true, "", "", false,
true))">Sepcies C </a></td>
<td>
<a href="javascript:WebForm_DoPostBackWithOptions(new
WebForm_PostBackOptions("ctl00$CenterContent$ctl04",
"", true, "", "", false,
true))">Species D</a></td>
<td>
<a href="javascript:WebForm_DoPostBackWithOptions(new
WebForm_PostBackOptions("ctl00$CenterContent$ctl05",
"", true, "", "", false,
true))">Species E </a></td>
私はRに次のコード行を使用してみました:上記のコードでは
library(xml2)
page = read_html(website)
nodes = html_nodes(page, xpath='//td/a[@href*="javascript"]')
、私はちょうど抽出したいですすべての部分文字列「のjavascript」を含むhref属性を持つノードが、私は以下のエラーメッセージが出ます:誰もが何か提案を持っている場合、私は感謝するだろう
xmlXPathEval: evaluation failed
Warning message:
In xpath_search(x$node, x$doc, xpath = xpath, nsMap = ns, num_results = Inf) :
Invalid expression [1207]
を。
ありがとうございました。
乾杯。
を、あなたは 'xpath'を使用してに結びついていますか?そうでなければ、次のようにすることができます: 'jscripts <- page %>%rvest :: html_nodes( 'td')%>% rvest :: html_nodes( 'a')%>% rvest :: html_attr( 'href')%>% [grepl( 'javascript'、。)] '。パイプオペレータには 'magrittr'パッケージを使用する必要があります。 – Abdou