データフレーム内の既知のバイグラムを交換する大規模な検索/置換機能/作業コードスニペットを作成できた人はいますか?リストからR tm_map gsubで大規模な置換/トークン化を行う方法は?
例を示します。私はoney-twosie置換えはできませんが、DTM生成の前に単語単位に変換するために、探したい約800語の辞書を活用したいと思っています。たとえば、「Google Analytics」を「google-analytics」に変えたいとします。
私はそれが理論的に可能であることを知っています。基本的に、カスタムストップワードリストは機能的には置き換えなくてもほとんど同じことをします。そして、それはちょうど800gsubsを持っているばかげているようです。
ここに私の現在のコードがあります。任意のヘルプ/ポインタ/ URL/RTFMsは非常に高く評価されるでしょう。
mystopwords <- read.csv(stopwords.file, header = FALSE)
mystopwords <- as.character(mystopwords$V1)
mystopwords <- c(mystopwords, stopwords())
# load the file
df <- readLines(file.name)
# transform to corpus
doc.vec <- VectorSource(df)
doc.corpus <- Corpus(doc.vec)
# summary(doc.corpus)
## Hit known phrases
docs <- tm_map(doc.corpus, content_transformer(gsub), pattern = "Google Analytics", replacement = "google-analytics")
## Clean up and fix text - note, no stemming
doc.corpus <- tm_map(doc.corpus, content_transformer(tolower))
doc.corpus <- tm_map(doc.corpus, removePunctuation,preserve_intra_word_dashes = TRUE)
doc.corpus <- tm_map(doc.corpus, removeNumbers)
doc.corpus <- tm_map(doc.corpus, removeWords, c(stopwords("english"),mystopwords))
doc.corpus <- tm_map(doc.corpus, stripWhitespace)