2017-06-10 4 views
0

イタリア語でFacebookページの投稿のワードクラウドを実装しようとしています。私はワードクラウドをうまく開発することができますが、à、è、òなどのイタリア語に特有の特定の文字をレンダリングする際に問題があります。これらを避けるために、すべてのテキストをUTF-8でエンコードすることです問題。なにか提案を?ワードクラウドとテキストマイニングのエンコーディングの問題

はここ

SpecialCharacterCleaner <- function(text_vector){ 
    text_vector <- gsub("[ä]", "ae", text_vector) 
    text_vector <- gsub("[ö]", "oe", text_vector) 
    text_vector <- gsub("[ü]", "ue", text_vector) 
    text_vector <- gsub("[è]", "e", text_vector) 
    text_vector <- gsub("[é]", "e", text_vector) 
    text_vector <- gsub("[à]", "a", text_vector) 
    return(text_vector) 
} 

は、だから私は、彼らが重要である知っている(アクセントを失う、次のクリーニング機能を使用している私は、通常は何のコード

new_variable <- as.vector(import_text) 
#create corpus from vector of tweets 
him_corpus <- Corpus (VectorSource(new_variable)) 
inspect(him_corpus[1]) 
him_clean <- tm_map(him_corpus, removePunctuation) 
him_clean <- tm_map(him_clean, content_transformer(tolower)) 
him_clean <- tm_map(him_clean, removeWords, stopwords("italian")) 
#him_clean <- tm_map(him_clean, removeNumbers) 
him_clean <- tm_map(him_clean, stripWhitespace) 
him_clean <- tm_map(him_clean, removeWords, c("skytg24", "sky")) #nserire qui l'hashtag oggetto di ricerca per esluderlo dalla cloud altrimenti altera i risultati 
wordcloud(him_clean, ramdom.order=F, col=rainbow(50), max.words=70) 
+0

は 'エンコード= "UTF-8"' 'VectorSource()'作業にを追加しますか? – hongsy

答えて

0

(私はドイツ語のテキストで、多くの場合、仕事)です私はイタリア語です)、しかしあなたはきれいな分析をすることができます。同じ単語に対して2つの異なるアクセント(間違って)を使用して、実際には「ペルシェ」や「ペルシェ」のような2つの異なる単語を使用する瞬間に困難が生じるかもしれません。あなたの言葉の数を変えてください。実際に同じ複数の単語が表示されます。

実際にはアクセントで作業することができます。私はドイツ語で同じ問題を抱えていました。そのため、ファイルのエンコーディングを確認してください。私の経験は、それが問題ではなく、ファイルがどのようにエンコードされているかです。良いエディタ(Windows用のUltraeditのような)があれば、エンコーディングをチェックすることができます。それが間違っていると、アクセントではなく奇妙な文字が得られます。これがあなたに役立つことを願っていますここでテキストクリーニングに関する私の短いメモを見つけることができますhttps://udata.science/2017/06/02/string-cleaning-for-text-mining-in-r/私はそれがあなた(まだ進行中の仕事)を助けることを願っています。

よろしく、ウンベルト

関連する問題