RVestを使用してブログのテキストを拝見していますが、特定のノードを除外する簡単な方法を見つけるのに苦労しています。以下は、テキストを引き出します。ノードを除外するRVest
AllandSundry_test <- read_html
("http://www.sundrymourning.com/2017/03/03/lets-go-back-to-commenting-on-the-weather/")
testpost <- AllandSundry_test %>%
html_node("#contentmiddle") %>%
html_text() %>%
as.character()
IDの「contenttitle」と「commentblock」の2つのノードを除外します。以下では、タグ "commentblock"を使用してコメントだけを除外してみます。
これを実行すると、結果は単に日付になります。残りのテキストはすべて削除されます。助言がありますか?
私は答えを探すのに多くの時間を費やしましたが、私はR(およびhtml)を初めて使っています。これが明らかなことがあれば、辛抱強くお礼申し上げます。
あなたが掻き出したいURLを入力してください。私はちょうどあなたの質問の要点を理解できませんでした。 – Bharath
お返事ありがとうございます。私は使用している正確な例で質問を編集しました。私はあなたの助けに感謝します。 –