私は、#
、@
、$
、%
などの特殊文字を持っている文書を持っています。最も頻繁に使用される用語のリストを取得するには、次のコードを使用します。しかし、それが実行されると、頻繁な用語リストに特殊文字が表示されません。すなわち、"#StackOverFlow"
が文書内に100回現れる単語である場合は、#
を頻繁に使用しないで"StackOverFlow"
となります。ここに私のコードです:期間の頻度を検索する特殊文字はどうやって保存しますか?
review_text <- paste(rome_1$text, collapse=" ")
#The special characters are present within review_text
review_source <- VectorSource(review_text)
corpus <- Corpus(review_source)
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
dtm <- DocumentTermMatrix(corpus)
dtm2 <- as.matrix(dtm)
frequency <- colSums(dtm2)
frequency <- sort(frequency, decreasing = TRUE)
head(frequency)
私はここで間違ってどこに行ったのですか?
あなたの例では、再現してください。あなたは非基本パッケージを使用している可能性が高いですし、私たちはあなたの入力を知らない...これらの条件で助けを与えるのは難しいです... – digEmAll
私はこのテキストを使用しました:review_text < - paste( "私は#AXN @ Anita。#AXN "、collapse =" "の石鹸が大好きです)、#と他の特殊文字を含むあなたの期待どおりの結果が得られます。あなたは使用しているテキストを投稿できますか?たとえば、#axnは2の数を返します – Indi
上記のコメントにAnitaの後ろにスペースを入れなければなりませんでした。 – Indi