イタリア語でFacebookページの投稿のワードクラウドを実装しようとしています。私はワードクラウドをうまく開発することができますが、à、è、òなどのイタリア語に特有の特定の文字をレンダリングする際に問題があります。これらを避けるために、すべてのテキストをUTF-8でエンコードすることです問題。なにか提案を?ワードクラウドとテキストマイニングのエンコーディングの問題
はここ
SpecialCharacterCleaner <- function(text_vector){
text_vector <- gsub("[ä]", "ae", text_vector)
text_vector <- gsub("[ö]", "oe", text_vector)
text_vector <- gsub("[ü]", "ue", text_vector)
text_vector <- gsub("[è]", "e", text_vector)
text_vector <- gsub("[é]", "e", text_vector)
text_vector <- gsub("[à]", "a", text_vector)
return(text_vector)
}
は、だから私は、彼らが重要である知っている(アクセントを失う、次のクリーニング機能を使用している私は、通常は何のコード
new_variable <- as.vector(import_text)
#create corpus from vector of tweets
him_corpus <- Corpus (VectorSource(new_variable))
inspect(him_corpus[1])
him_clean <- tm_map(him_corpus, removePunctuation)
him_clean <- tm_map(him_clean, content_transformer(tolower))
him_clean <- tm_map(him_clean, removeWords, stopwords("italian"))
#him_clean <- tm_map(him_clean, removeNumbers)
him_clean <- tm_map(him_clean, stripWhitespace)
him_clean <- tm_map(him_clean, removeWords, c("skytg24", "sky")) #nserire qui l'hashtag oggetto di ricerca per esluderlo dalla cloud altrimenti altera i risultati
wordcloud(him_clean, ramdom.order=F, col=rainbow(50), max.words=70)
は 'エンコード= "UTF-8"' 'VectorSource()'作業にを追加しますか? – hongsy