1
ポルトガル語で政府のページをウェブスクレイプしようとすると、エンコードの問題が発生します。私はhtmlParse
へencoding="latin1"
とencoding="UTF-8"
を追加し、getURL
へ.encoding="latin"
と.encoding="UTF-8"
の追加など、いくつかのことを試してみたラテン文字にrのhtmlparseを使用すると問題が発生する
library("RCurl")
library("XML")
html = getURL("http://sei.cade.gov.br/sei/institucional/pesquisa/documento_consulta_externa.php?u0r2HDE7WIdiBH3O1y0Dr6krqmN-VVCNjJtZWrdX1mgt3CiIC_RM90F01GwwNk20muowNXaYKrI2Ob8UQUkAoA,,")
par = htmlParse(html)
x = xpathSApply(par, "//strong", xmlValue)[1]
print(x)
[1] "NOTA TÉCNICA Nº 58/2017/CGAA6/SGA2/SG/CADE"
:これは私のコードです。
私のシステムは、私がここでアイデアの出だ
Sys.getlocale()
[1] "LC_COLLATE=Portuguese_Brazil.1252;LC_CTYPE=Portuguese_Brazil.1252;LC_MONETARY=Portuguese_Brazil.1252;LC_NUMERIC=C;LC_TIME=Portuguese_Brazil.1252"
を与えるSys.getlocale()のように、右の場所に設定されているようだ、と任意の助けをいただければ幸いです。
ありがとう、私のために働く!これは私にこの特定の問題を与えている唯一のページであった(これまでのところ)面白いです。 –