コーパスから作成したストップワードのリストを削除しようとしています。私はストップワードリストからすべての特殊文字を削除し、コーパス上のテキストクリーニングを完了したので何が起こっているのか分かりません。どんな助けでも大歓迎です。コードとエラーメッセージは以下のとおりです。ユーザー定義の単語を停止すると、CSVは以下のとおりです:GSUBで Stop Wordstmパッケージを使用してストップワードを削除する(Gsubエラー)
myCorpus <- Corpus(VectorSource(c("blank", "blank", "blank", "blank", "blank", "blank", "blank",
for (j in seq(myCorpus)) {
myCorpus[[j]] <- gsub("<.*>", " ", myCorpus[[j]])
myCorpus[[j]] <- gsub("\\b[[:alnum:]]{20,}\\b", " ", myCorpus[[j]], perl=T)
myCorpus[[j]] <- gsub("[[:punct:]]", " ", myCorpus[[j]])
#Clean Corpus
myCorpus <- tm_map(myCorpus, PlainTextDocument)
myCorpus <- tm_map(myCorpus, content_transformer(tolower))
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus, stripWhitespace)
#User defined stop word
manualStopwords <- read.csv("r_stop.csv", header = TRUE)
myStopwords <- paste(manualStopwords[,1])
myStopwords <- str_replace_all(myStopwords, "[[:punct:]]", "")
myStopwords <- gsub("\\+", "plus", myStopwords)
myStopwords <- gsub("\\$", "dollars", myStopwords)
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
の残りの部分エラー(はsprintf( "(* UCP)\ bの(%sの)B \ 」、ペースト(ソート(言葉、= TRUEの減少)、: 無効な正規表現「(* UCP)\ bの(ツィンマーマン|歳|年|ホードは| .....ストップワード
:メッセージ警告:GSUBで を(はsprintf( "(* UCP)\ bの(%s)は\ bの"、ペースト(ソート(言葉、= TRUEの減少)、: PCREのパターンコンパイルエラー 「正規表現は大きすぎる」
他の人があなたを助けることができるように、[再現性の例](http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)を提供してください。 –
私が持っているストップワードのリストは約4000ワードですが、問題が発生している場所だと思います。私はキーが追加のエラーにあると思う。 ''はgsubを投げ捨てているようだ。ここにデータセット全体を掲載することはできません。 – Stewpants
@Stewpantsエラーの原因となっているプロセスの部分を絞り込み、再現可能なデータを使用して再現可能な例を作成することができます。 –