1
rvest
を使用してテーブルと標準HTMLを読むのに成功しました。私はそれに複数の引用符を持つテキストを読むことで、現時点で問題を抱えています。 rvest
は、引用符で囲まれたテキストとスペースの後に引用符で囲まれたテキストの新しい行が表示されたときに、新しい文字(a-z)を追加するようです。rvestを使って奇妙に引用されたテキストを読む
これは再現可能な例です。
library(rvest)
read_html("https://www.lds.org/scriptures/ot/gen/1?lang=eng") %>%
html_node("#p3") %>%
html_text()
結果が "asaid" と "枯れ" である
"3 And God asaid, Let there be blight: and there was light."
スペルミスです。 lol
詳細については、Webインスペクタを使用してhtml構造を調べました。
<p class="verse" id="p3>
<span class="verse-number verse">3</span>
"And God "
"said"
", Let there be "
"light"
": and there was light."
</p>
このようなフォーマットの悪いテキストの解決方法は何か不思議です。
問題ここ(一番下までスクロールし、「ショーの脚注」をクリックしてください。それを解決するためにどのように、私はまだ働いている2脚注、デフォルトで隠されている「a」および「b」があるということですその上に。 – neilfws