ラテン文字にrのhtmlparseを使用すると問題が発生する

ポルトガル語で政府のページをウェブスクレイプしようとすると、エンコードの問題が発生します。私はhtmlParseへencoding="latin1"とencoding="UTF-8"を追加し、getURLへ.encoding="latin"と.encoding="UTF-8"の追加など、いくつかのことを試してみたラテン文字にrのhtmlparseを使用すると問題が発生する

library("RCurl") 

library("XML") 

html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,") 

par = htmlParse(html) 

x = xpathSApply(par, "//strong", xmlValue)[1] 

print(x) 

[1] "NOTA TÃ‰CNICA NÂº 58/2017/CGAA6/SGA2/SG/CADE"

：これは私のコードです。

私のシステムは、私がここでアイデアの出だ

Sys.getlocale() 
[1] "LC_COLLATE=Portuguese_Brazil.1252;LC_CTYPE=Portuguese_Brazil.1252;LC_MONETARY=Portuguese_Brazil.1252;LC_NUMERIC=C;LC_TIME=Portuguese_Brazil.1252"

を与えるSys.getlocale（）のように、右の場所に設定されているようだ、と任意の助けをいただければ幸いです。

出典

2017-08-25 Luis Paulo Jorge

コードを1回追加してこれを動作させることができました。

## Your code 
library("RCurl") 
library("XML") 
html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,") 
par = htmlParse(html) 
x = xpathSApply(par, "//strong", xmlValue)[1] 

## Addition 
x2 = iconv(x, from="UTF-8", to="latin1") 
print(x2) 
"NOTA TÉCNICA Nº 58/2017/CGAA6/SGA2/SG/CADE"

出典

2017-08-26 00:26:53 G5W

ありがとう、私のために働く！これは私にこの特定の問題を与えている唯一のページであった（これまでのところ）面白いです。 –

ラテン文字にrのhtmlparseを使用すると問題が発生する

答えて

関連する問題