Rのウェブをスクレイピングし、Rの検索キーワードを使用してGoogle検索のアクションを実行しようとしています。私はRCurlとXMLパッケージを使用してGoogle検索結果のリンクを取得することに部分的に成功しています。しかし、抽出したhrefリンクには不要な情報が含まれており、「URL」の形式ではありません。Rでウェブスクレイピングして取得したGoogleの検索リンクは、必要な形式ではありません
私が使用するコードは次のとおりです。
html <- getURL(u)
links <- xpathApply(doc, "//h3//a[@href]", xmlGetAttr, 'href')
links <- grep("http://", links, fixed = TRUE, value=TRUE)
上記のコードは、しかし、彼らは以下の形式である、私の7のリンクを提供します:
:[1] "/url?q=http://theguitarrepairworkshop.com/services/&sa=U&ved=0ahUKEwiOnNXzsr7OAhWHAMAKHX_LApYQFggmMAM&usg=AFQjCNF1r13FMHXXTsxMkbwzortiWKDALQ"
私はなるためにそれらを好むだろう
http://theguitarrepairworkshop.com/services/
上記のようにhrefを抽出するにはどうすればよいですか?
Googleを傷つけることは、利用規約に違反しています。あなたが別のスクレイピングの例を模倣した場合、私は喜んで助けてくれるでしょう。 – hrbrmstr
* RCurl/XMLパッケージはXpath 1.0またはXpath 2.0を使用していますか?* 2.0を使用している場合、xpathステートメントの正規表現関数はより簡単なコードと高速なパフォーマンスを提供します。 – Paulb
@hrbrmstr:ありがとうございました。私はそれを知らなかった。アプリケーションを介してインターネットから検索結果を取得する他の法的手段がありますか? –