を
gsub(sprintf("(*UCP)\\b(%s)\\b",
gsub(sprintf("(*UCP)\\b[a-zA-Z]*(%s)[a-zA-Z]*\\b",
への完全な機能あなたは、ステミングを使用して禁止された言葉をもたらすことができますckを基本形式に変換します。以下の例を参照してください。
library(tm)
banned <- c("buck")
text <- c("He is bucking the trend", "A buck is not worth a dollar anymore!")
corpus <- Corpus(VectorSource(text), readerControl = list(language="en"))
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, stemDocument)
corpus <- tm_map(corpus, removeWords, c(stopwords("english"), banned))
writeLines(as.character(corpus[[1]]))
trend
、あなたが取得する文書茎していない場合:
corpus <- Corpus(VectorSource(text), readerControl = list(language="en"))
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removeWords, c(stopwords("english"), banned))
writeLines(as.character(corpus[[1]]))
bucking trend
ないtm' 'わからをしていますが、追加パッケージを含むとOKなら、' quanteda'は '機能を持っています正規表現とグロブ型のワイルドカードを使用できるselectFeatures(および関連する 'removeFeatures')があります。いくつかの例については '?quanteda :: selectFeatures'を参照してください。 – Jota
QuantedaでSeconded。 tmよりずっと簡単です。すぐにrのテキスト処理の標準となるでしょう。 – lmkirvan