2017-06-08 21 views
1

私は仕事で利用可能なRしか持っていません。これまでにPythonでこれを行っています。 CSVファイルでインシデントの各セットを取得する必要があります。私はPythonで感情分析を行いました。そこでは、各フレーズのカウントを備えた提供されたテーブルでPythonが検索された辞書がありました。私はRでこれを行う方法を研究しており、あらかじめ決められた頻度を使って一般的な単語数を行う方法しか見つけられていません。R単語頻度でのテキスト分析

誰でもありがとうR.でこれを行う方法上の任意のリソースへのリンクを持っている場合は私に知らせてください:)

+0

オンボードにようこそ。私たちが一見することができるように、データの一部を追加してください – amonk

答えて

2

ここで開始する場所です:http://tidytextmining.com

library(tidytext) 

text_df %>% 
    unnest_tokens(word, text) 

library(tidytext) 
tidy_books <- original_books %>% 
    unnest_tokens(word, text) 

tidy_books 

tidy_books %>% 
    count(word, sort = TRUE) 
1

良いですtidytextパッケージには、溶液。別のオプションは、テキストマイニングパッケージtmを使用することです:

library(tm) 
df<-read.csv(myfile) 

corpus<-Corpus(VectorSource(df$text)) 
corpus<-tm_map(corpus, content_transformer(tolower)) 
corpus<-tm_map(corpus, removeNumbers) 
corpus<-tm_map(corpus, removeWords, stopwords('english')) 
#corpus<-tm_map(corpus, stemDocument, language = "english") 
corpus<-tm_map(corpus, removePunctuation) 

tdm<-TermDocumentMatrix(corpus) 

tdmatrix<-as.matrix(tdm) 
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE) 

のコード例では、ストップワードを除去することで、テキスト、任意の数字や句読点をクリーンアップします。最終的な答えwordfreqは、興味があれば、wordcloudパッケージを用意しています。

関連する問題