-1
Rのコーパスで前処理をしようとしています。$で始まる単語を削除する必要があります。以下のコードは$を削除しますが、$は削除しません。私は困惑しています。
inspect(data.corpus1[1:2])
# <<SimpleCorpus>>
# Metadata: corpus specific: 1, document level (indexed): 0
# Content: documents: 2
#
# [1] $rprx loading mid .60's, think potential. 12m vol fri already 11m today
# [2] members report success see track record $itek $rprx $nete $cnet $zn $cwbr $inpx
removePunctWords <- function(x) {
gsub(pattern = "\\$", "", x)
}
data.corpus1 <-
tm_map(data.corpus1,
content_transformer(removePunctWords))
inspect(data.corpus1[1:2])
# <<SimpleCorpus>>
# Metadata: corpus specific: 1, document level (indexed): 0
# Content: documents: 2
#
# [1] rprx loading mid .60's, think potential. 12m vol fri already 11m today
# [2] members report success see track record itek rprx nete cnet zn cwbr inpx
私は正規表現では最高ではありませんが、おそらく "。"ですか?例: 'gsub(pattern =" \\ $。* "、" "、x)'? – shea
@sheaそれは最初の$の後にすべてを殺すでしょう。すぐに続く$と単語の文字を削除したいだけです。 – G5W
@ G5W説明していただきありがとうございます。私は "。*"が貪欲であることは分かりませんでした。 – shea