2017-10-14 9 views
1

MeCabの日本語辞書データをUTF-8にエンコードした経験があるかどうか質問したいと思います。 日本語の単語マップを作成するためにMeCabがインストールされ、RMeCabパッケージがRにインストールされていますが、辞書データがUTF-8にエンコードされていないためPOSタグ付けが機能していないようです。日本語の辞書をUTF-8からRMeCab/MeCabに読み込む

library("RMeCab") 
library("wordcloud") 
setwd('C:\\Users\\sukyu\\Desktop\\JP') 
word <- RMeCabFreq("OLS_Japantext.txt") 
word <- subset(word,Info1=="名詞") 
type <- c("数","非自立","接尾") 
word <- subset(word,!Info2%in% type) 
word <- word[order(word$Freq,decreasing =T),] 
pal <- brewer.pal(8,"Spectral") 
par(family = "HiraKakuProN-W3") 
wordcloud(word$Term,word$Freq,min.freq = 1,colors=pal, 
     random.order = TRUE,scale = c(5,4)) 

答えて

0

デフォルトでは、UTF8は使用されませんが、MeCabには強制的にビルドオプションがあります。この方法で構築してみてください。

./configure --with-charset=utf8 --enable-utf8-only 

これで解決します。

関連する問題