私はテキスト解析を行っています。私は文章を数える必要があった。私のコードは:R - データフレーム内の単語の削除が削除されます
library(dplyr)
library(tidytext)
txt <- readLines("consolidado.txt",encoding="UTF-8")
txt = iconv(txt, to="ASCII//TRANSLIT")
text_df <- data_frame(line = 1:392, text = txt)
palabras1 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 1)
palabras2 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 2)
palabras3 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 3)
palabras4 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 4)
palabras5 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 5)
palabras6 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 6)
palabras7 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 7)
最初に私はデータフレームでtxtを変換し、後でtidytextで作業します。この作品はいいですが、問題はストップワードです。私は、データフレーム内のストップワードを削除したいが、私はどのように知っているのか分からない。私はコーパスでそれを変換しようとしましたが、この方法では停止しない単語を後で削除することはできません。
データフレーム内のストップワードを削除する方法はありますか?
はR
で
'stop_words'で' anti_join'を行います – akrun