以下のようなHTMLデータセットがあります。これを解析し、使用できる表形式に変換します。HTMLデータを解析するにはR
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<div class="brewery" id="brewery">
<ul class="vcard simple">
<li class="name"> Bradley Farm/RB Brew, LLC</li>
<li class="address">317 Springtown Rd </li>
<li class="address_2">New Paltz, NY 12561-3020 | <a href='http://www.google.com/maps/place/317 Springtown Rd++New Paltz+NY+United States' target='_blank'>Map</a> </li>
<li class="telephone">Phone: (845) 255-8769</li>
<li class="brewery_type">Type: Micro</li>
<li class="url"><a href="http://www.raybradleyfarm.com" target="_blank">www.raybradleyfarm.com</a> </li>
</ul>
<ul class="vcard simple col2"></ul>
</div>
<div class="brewery">
<ul class="vcard simple">
<li class="name">(405) Brewing Co</li>
<li class="address">1716 Topeka St </li>
<li class="address_2">Norman, OK 73069-8224 | <a href='http://www.google.com/maps/place/1716 Topeka St++Norman+OK+United States' target='_blank'>Map</a> </li>
<li class="telephone">Phone: (405) 816-0490</li>
<li class="brewery_type">Type: Micro</li>
<li class="url"><a href="http://www.405brewing.com" target="_blank">www.405brewing.com</a> </li>
</ul>
<ul class="vcard simple col2"></ul>
</div>
</body>
以下は私が使用したコードです。私が直面している問題は、Rvestを使ってテキストファイルに変換するのですが、それはどんな有用なフォーマットにもなりません。
library(dplyr)
library(rvest)
url<-html("beer.html")
selector_name<-".brewery"
fnames<-html_nodes(x = url, css = selector_name) %>%
html_text()
head(fnames)
fnames
これは正しいアプローチか、他のパッケージを使用して各divと内部要素を調べる必要がありますか。
うち、私はそれを見たい置く
No. Name Address Type Website
はありがとうございました。
おかげでたくさんの@austensen。私が得る私の唯一のエラーは、タイプ全体のファイルでこれを実行している間です。私たちが空白の型の値を置き換えようとしている間に何かすることになるでしょう。 'エラー:列' type'は長さ1または7263でなく7147でなければなりません。 ' – SNT
実際のデータに 'type'フィールドがないいくつかの醸造所があります。データフレームの長さが異なります。私はそれを解決する方法についてもう少し考えなければならないだろう。 – austensen