2017-10-24 15 views
0

私はテキスト解析を行っています。私は文章を数える必要があった。私のコードは:R - データフレーム内の単語の削除が削除されます

library(dplyr) 
library(tidytext) 
txt <- readLines("consolidado.txt",encoding="UTF-8") 
txt = iconv(txt, to="ASCII//TRANSLIT") 
text_df <- data_frame(line = 1:392, text = txt) 
palabras1 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 1) 
palabras2 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 2) 
palabras3 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 3) 
palabras4 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 4) 
palabras5 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 5) 
palabras6 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 6) 
palabras7 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 7) 

最初に私はデータフレームでtxtを変換し、後でtidytextで作業します。この作品はいいですが、問題はストップワードです。私は、データフレーム内のストップワードを削除したいが、私はどのように知っているのか分からない。私はコーパスでそれを変換しようとしましたが、この方法では停止しない単語を後で削除することはできません。

データフレーム内のストップワードを削除する方法はありますか?

R

+0

'stop_words'で' anti_join'を行います – akrun

答えて

1

を私はanti_joinてみました...しかし、私はこのエラーを取得:

by required, because the data sources have no common variables 

は、私が試したこの問題についてグーグル:

by = NULL 
by = c("a" = "b") 
by = c(namecolumn = namecolumn) 

私はそれを得ていませんでした。

は、最後に私は、このソリューションでそれを得た:

library(tm) 
library(dplyr) 
library(tidytext) 

txt <- readLines("consolidado.txt",encoding="UTF-8") 
txt = iconv(txt, to="ASCII//TRANSLIT") 
text_df <- data_frame(line = 1:392, text = txt) 

text_df$text = removeWords(text_df$text, stopwords("spanish")) 
text_df$text = stripWhitespace(text_df$text) 

ライブラリTMがスペイン語ストップワードを持っています。

データフレーム内のテキストを含む列を選択しますが、デフォルトではこの列はテキストと呼ばれます。後でstopWords関数を削除するためにremoveWords関数を使用します。最後の行は、ストップワードを削除するために二重空白を削除することです。

ありがとうございました。

1

ほとんどのテキストマイニングパッケージは、共通のストップワードを除去するための標準化された機能が含まれているあなたに感謝します。 tidytextパッケージには、共通のストップワードを含むstop_wordsデータセットが含まれています。このような何かが、トリックを行う必要があります。

text_df <- data_frame(line = 1:392, text = txt) %>% 
         txt_df %>% 
         anti_join(stop_words) 
+0

私はスペイン語のストップワードを使用できますか???? – Alejo

関連する問題