良いですtidytextパッケージには、溶液。別のオプションは、テキストマイニングパッケージtm
を使用することです:
library(tm)
df<-read.csv(myfile)
corpus<-Corpus(VectorSource(df$text))
corpus<-tm_map(corpus, content_transformer(tolower))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removeWords, stopwords('english'))
#corpus<-tm_map(corpus, stemDocument, language = "english")
corpus<-tm_map(corpus, removePunctuation)
tdm<-TermDocumentMatrix(corpus)
tdmatrix<-as.matrix(tdm)
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE)
のコード例では、ストップワードを除去することで、テキスト、任意の数字や句読点をクリーンアップします。最終的な答えwordfreq
は、興味があれば、wordcloudパッケージを用意しています。
オンボードにようこそ。私たちが一見することができるように、データの一部を追加してください – amonk