テキストの掃除アクセント

-2

私はスペイン語twittsでテキストマイニングに取り組んでいます。私の問題は、同じ単語を持っていますが、異なる方法（アクセントとアクセントなし）、例：accion、acciónです。テキストの掃除アクセント

私はコーディングを使用しようとしました：ユニコード「UTF-8」、しかし仕事をしません。マイライブラリライブラリ（stringi）ライブラリ（ツイッター）ライブラリ（TM）ライブラリ（wordcloud）ライブラリ（RColorBrewer）

出典

2016-04-29 Rodrigo_BC

を使用することになり、最も簡単な方法は、このアクセント文字を変更しようとしている場合は、についての情報をお読みください[良い質問をする方法]（HTTP ：//stackoverflow.com/help/how-to-ask）と[再現可能な例]を与える方法（http://stackoverflow.com/questions/5963269）を参照してください。これは他の人があなたを助けることをはるかに容易にします。 – zx8754

あなたができることは、アクセント付きの文字の「データベース」を作成し、それを翻訳することです。次に、これを個々のつぶやきに適用し、アクセント付きの文字を「フラッシュ」します。たとえば、 'sub'を使用することができます。 –

あなたがアクセスしたツイートでやろうとしているものを明確に指定されていませんでした（に保存テキストファイル、またはデータフレームなど）。UTF-8エンコーディングを使用している場合、基本的にそのまま文字を保存します。

con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8") 
write(df, file = con)

あなたは、通常の同等にiconv

iconv("acción", to='ASCII//TRANSLIT') 
>[1] "accion"

出典

2016-05-20 16:27:16 user5249203

テキストの掃除アクセント

答えて

関連する問題