Rをデータフレームに使用してXMLノードを読み込む際に問題が発生しています。私はXMLデータを読むのが初めてです。 )は、いくつかの観測を除外し、いくつかの行を区切るされていません(XML文字列をデータフレームに変換するR
require(dplyr)
require(rvest)
url <- "http://rstudio-pubs-static.s3.amazonaws.com/177866_49f6965521224dd883df5f20f9c32db3.html"
x <- read_html(url) %>%
html_node("code") %>%
html_text()
x1 <- gsub("##", "", x)
df <- read.table(text = x1, fill = TRUE, sep = "\n", header=TRUE, allowEscapes = TRUE)`
しかし、それはread.tableをのように思える:
は、これは私が取得するために管理しているものです。
私は単純なデータフレームにXMLテキストを取得しています。うまくいけば、私はこのXMLのものをどのように扱うかについていくつかの洞察を得ることができます。
怪しいという名前の 'XML'パッケージ... – lmo
は、ページが***の痛みされていることがあります。データセットはマークダウンでラップされたので、実際に積み重なってしまった。再構築や500行の読み込みを行わずに正しく読む方法はありません。 3セットあるようです500 –
はい、私はXMLパッケージについて知っており、それを使用しており、rvestパッケージのレイアウトが好きです。 私はそれを読んでいる行を管理し、 "\ n"デリミタでそれをsttsplitしました。しかし、あなたが見下ろすと、250行が "\ n"で新しい行に分けられたように見えます。 私はそれをすべて読んで、いくつかの変換を行いました。私はちょうど1500行すべてを別々に読むのに苦労していて、助けをいくつか使うことができます。 – KenDazzo