私のデータは、バグの再現手順を含む文字列のリストで構成されています。これらは通常htmlとしてエンコードされますが、時には生のテキストであり、場合によっては空です(NA)。私はテキストが必要です。私はこれをrvestで達成しようとしていますが、私は問題にぶち当たっています。htmlを使用してhtmlの断片を解析するにはどうすればよいですか?
私は、HTMLの行を解析して文字列を返します。この機能を持っている:
library(rvest)
tf <- function(frag) {read_html(frag) %>% html_nodes("p") %>% html_text() %>% paste0(collapse = " ")}
は、これは適切なHTML上で動作します:予想通り
foo <- c("<p>captain <p>tightpants", "<p>malcolm <p>reynolds")
lapply(foo, tf)
作品を。私は2本の紐を取り戻す。
:私はhtmlのない文字列を持っている場合、それはまた、ファイルをロードしようとし、同様にfoo <- c("<p>captain <p>tightpants", "<p>malcolm <p>reynolds", NA)
lapply(foo, tf)
:私はNASに持っている場合
は、それが「NA」という名前のファイルをロードしよう
foo <- c("<p>captain <p>tightpants", "<p>malcolm <p>reynolds", "something else")
lapply(foo, tf)
文字列がhtmlであると常に仮定してrvestを取得する方法はありますか?私が使用しなければならない別のパッケージがありますか?
XMLライブラリはずっと便利ではありませんが、この問題を克服するasTextパラメータを持っています。そのようなものがありますか? –