公開されているWebサイトからRのデータフレームにHTMLテーブルを読み込もうとしています。テーブルの最後の列にはハイパーリンクが含まれています。 Webページに表示されるテキストではなく、テーブルにハイパーリンクされます。私はStackOverflowや他のサイトでいくつかの記事を見直してきましたが、ほとんどそこにいましたが、私はハイパーリンク自体を読むことができませんでした。ハイパーリンクを含むデータフレームへのHTMLテーブルの読み込みR
私が読んでいるテーブルはここにあります:http://mis.ercot.com/misapp/GetReports.do?reportTypeId=12300&reportTitle=LMPs%20by%20Resource%20Nodes,%20Load%20Zones%20and%20Trading%20Hubs&showHTMLView=&mimicKey。
最後の列には、ダウンロード用の* .ZIPファイル形式の実際のデータを指すハイパーリンクが含まれています。私はテーブルをRにテキストとして読み込むことに成功しましたが、最終列のハイパーリンクを解決する方法を理解することはできません。ここで
は、私がこれまで持っているものです。
library(XML)
webURL <- 'http://mis.ercot.com/misapp/GetReports.do?reportTypeId=12300&reportTitle=LMPs%20by%20Resource%20Nodes,%20Load%20Zones%20and%20Trading%20Hubs&showHTMLView=&mimicKey'
page <- htmlParse(webURL)
tableNodes <- getNodeSet(sitePage, "//table")
myTable <- readHTMLTable(tableNodes[[3]])
ただし、これは最後の列ではなく、ハイパーリンクのテキストが含まれています。この表の最後の列の「zip」という単語をRの各行の対応するハイパーリンクの値に置き換えるにはどうすればよいですか?
これは私が探していたものです!あなたのお返事ありがとうございました。 xpath引数を生成する方法が不足していました。 HTMLを見てこのパラメータをどのように生成したのか、これを説明するいくつかの読み物を教えてください。 HTMLテーブルの構造が少し異なる可能性がある他のいくつかのWebサイトで同様の作業を行う必要があります。 – bmosov01
それはあなたのユースケースのために働いてうれしい!私はビューソース(inspect-elementは間違ったセレクタにつながる可能性があります)を行い、テーブル構造に気付きました。最高の「
別の優れた説明をありがとうございます。別の投稿を読んだ後、私はinspect-elementを無駄にしようとしましたが、これは意味があります。確かに私はちょうどCSVsをダウンロードするために探しています、そして、私はまだ持っていないファイルを収穫することができるので、あなたのソリューションが請求書100%に合うように、タイトルとファイル名を将来参照するように追跡したい。希望の「」を見つけてそこから要素ツリーを作成することについてのあなたの説明は、これをより一般的に将来的に行うのに役立ちます。 もう一度、非常に感謝! – bmosov01
XMLよりも簡単なrvestパッケージを使用しています。ここで
は、リンクのリストを取得するためのソリューションです:出典
2017-07-29 13:08:46 Dave2e
ありがとうございました。私はhrbrmstrから回答を選択しました。なぜなら、同様の方法で他のウェブサイトを掻き集めるのに、より包括的で柔軟性があったからです。 – bmosov01
関連する問題