2017-11-21 16 views
-2

私は現在、ウェブスクレイピングプロジェクトに取り組んでいます。私の現在の問題は、私のデータからCSSタグを削除することです。ここに私のコードの基本は以下のとおりです。CSSタグをgsubに置き換える際の問題

library(Rcrawler) 
setwd("C:myfile") 
Rcrawler(Website = "http://www.soyaquaalliance.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c("div")) 
test1<-gsub("[\\t\\n]"," ",DATA) print(test1) 

コンソールをチェックする場合は、そのGSUBに気付くでしょうと、CSSタグを置き換えますが、それはまた、私のコードをスクレーピングされているテキスト内のすべてのTSとNSを置き換えます。他のテキストに影響を与えずに効果的にCSSタグを削除するにはどうすればよいですか?

答えて

-1

二重バックスラッシュを使用します。最初のバックスラッシュをエスケープする必要があります。

+0

ダブルバックスラッシュはすべてのタグを削除します。これは達成しようとしているものに役立ちますが、削除しようとしていないテキストから文字を削除します。 – Anthony

関連する問題