2016-04-29 11 views
-2

私はスペイン語twittsでテキストマイニングに取り組んでいます。私の問題は、同じ単語を持っていますが、異なる方法(アクセントとアクセントなし)、例:accion、acciónです。テキストの掃除アクセント

私はコーディングを使用しようとしました:ユニコード「UTF-8」、しかし仕事をしません。 マイライブラリ ライブラリ(stringi) ライブラリ(ツイッター) ライブラリ(TM) ライブラリ(wordcloud) ライブラリ(RColorBrewer)

+1

を使用することになり、最も簡単な方法は、このアクセント文字を変更しようとしている場合は、についての情報をお読みください[良い質問をする方法](HTTP ://stackoverflow.com/help/how-to-ask)と[再現可能な例]を与える方法(http://stackoverflow.com/questions/5963269)を参照してください。これは他の人があなたを助けることをはるかに容易にします。 – zx8754

+0

あなたができることは、アクセント付きの文字の「データベース」を作成し、それを翻訳することです。次に、これを個々のつぶやきに適用し、アクセント付きの文字を「フラッシュ」します。たとえば、 'sub'を使用することができます。 –

答えて

0

あなたがアクセスしたツイートでやろうとしているものを明確に指定されていませんでした(に保存テキストファイル、またはデータフレームなど)。UTF-8エンコーディングを使用している場合、基本的にそのまま文字を保存します。

con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8") 
write(df, file = con) 

あなたは、通常の同等 にiconv

iconv("acción", to='ASCII//TRANSLIT') 
>[1] "accion" 
関連する問題