私はhtmlParseをヘブライ語でうまく動作させたいと思っていますが、ヘブライ語のテキストをページに埋め込むことができます。例えばヘブライ語で働くためにhtmlParseを取得するには?
:これらの
# why can't I parse the Hebrew correctly?
library(RCurl)
library(XML)
u = "http://humus101.com/?p=2737"
a = getURL(u)
a # Here - the hebrew is fine.
a2 <- htmlParse(a)
a2 # Here it is a mess...
どれもそれを修正するように見えるん:
htmlParse(a, encoding = "utf-8")
htmlParse(a, encoding = "iso8859-8")
これは私のロケールです:
> Sys.getlocale()
[1] "LC_COLLATE=Hebrew_Israel.1255;LC_CTYPE=Hebrew_Israel.1255;LC_MONETARY=Hebrew_Israel.1255;LC_NUMERIC=C;LC_TIME=Hebrew_Israel.1255"
>
任意の提案ですか?
私はUTF-8ロケールであり、 'htmlParse(a、encoding =" utf- 8 ")'うまく動作します。 –
ハイ・ヴィンセント、あなたはあなたが使っているロケールを書いてください。 –
私はen_GB.UTF-8: 'LC_CTYPE = en_GB.UTF-8; LC_NUMERIC = C; LC_TIME = en_GB.UTF-8; LC_COLLATE = en_GB.UTF-8; LC_MONETARY = en_GB.UTF-8; LC_MESSAGES = en_GBを使用します。 UTF-8; LC_PAPER = C; LC_NAME = C; LC_ADDRESS = C; LC_TELEPHONE = C; LC_MEASUREMENT = en_GB.UTF-8; LC_IDENTIFICATION = C'。 –