-2
私は現在、ウェブスクレイピングプロジェクトに取り組んでいます。私の現在の問題は、私のデータからCSSタグを削除することです。ここに私のコードの基本は以下のとおりです。CSSタグをgsubに置き換える際の問題
library(Rcrawler)
setwd("C:myfile")
Rcrawler(Website = "http://www.soyaquaalliance.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c("div"))
test1<-gsub("[\\t\\n]"," ",DATA) print(test1)
コンソールをチェックする場合は、そのGSUBに気付くでしょうと、CSSタグを置き換えますが、それはまた、私のコードをスクレーピングされているテキスト内のすべてのTSとNSを置き換えます。他のテキストに影響を与えずに効果的にCSSタグを削除するにはどうすればよいですか?
ダブルバックスラッシュはすべてのタグを削除します。これは達成しようとしているものに役立ちますが、削除しようとしていないテキストから文字を削除します。 – Anthony