私はメディアリサーチのデータマイニングに興味深い使い方です。Window XPでのxml解析出力のRの問題
私は、XML(GoogleのRSSをこする)国家のシンボル(キリル文字)が破壊されPARS午前:
>xml <- xmlTreeParse(url, useInternalNodes = T)
>xml
<? xml version="1.0" encoding="UTF‑8"?>
<rss version="2.0">
<channel>
<generator>NFE/1.0</generator>
<title>югра OR ханты OR хмао – Новости Google</title>
…
私のシステムでは、次のとおりです。
のSessionInfo()
Rバージョン2.13.1( 2011-07-08)
Platform: i386-pc‑mingw32/i386 (32-bit)
locale:
[1] LC_COLLATE=Russian_Russia.1251 LC_CTYPE=Russian_Russia.1251
[3] LC_MONETARY=Russian_Russia.1251 LC_NUMERIC=C
[5] LC_TIME=Russian_Russia.1251
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] XML_3.4-2.2 RCurl_1.6-10.1 bitops_1.0-4.1
loaded via a namespace (and not attached):
[1] tools_2.13.1
私が使用してみてくださいよd任意のカスタムオプション(localeToCharset(locale="ru_RU.UTF-8")
) - 効果なし。
私はLinux(Lubuntu 11.04)で解析を実行しています - 問題はありませんが、国のシンボル出力は正しいです。
私の英語は申し訳ありません。
ありがとうございます。
私はそれを試すことができるので、正確なURLを教えてください。 – Anatoliy
確かに。 URLを組み立てるための コード: url.tmp < - "http://news.google.ru/news?hl=ru&gl=ru&q=" シンボル< - enc2utf8( "бытьORжить") 数< - 100 url < - paste(url.tmp、symbol、 "&output = rss"、 "&start ="、1 "&num ="、number、sep = "") url < - URLencode(url) ありがとうございました。 – user4212