2016-06-19 8 views
1

rvestを使用してbaseball-reference.comからテーブルを削り取ろうとしています。私のコードは:rvestの問題をエンコードします。文字列のスペースの代わりに「Â」が表示されます

この時点では、テーブルが少し文字化けしていますが、どこにでもスペースが必要です。私は試しました

nlbatting.raw %>% mutate(Name=repair_encoding(Name))->nlbatting.raw 

これは、すべてが大丈夫に見えますが、その後私は本当に奇妙な動作になる。

nlbatting.raw$Name[86]=="Yoenis Cespedes" 
FALSE 

と::たとえば

gsub(" ","_",nlbatting.raw$Name[86]) 
"Yoenis Cespedes" 

私はread_html()何も変化が異なる符号化パラメータを試してみました。私はエンコーディングだけを残して、 "Â"を外に出してみましたが、同じ問題があります。どんな助けも素晴らしいでしょう、事前に感謝! ps。私が何かを見逃してしまった場合、ごめんなさい。

答えて

0

".class"から ".stats_table"に修正されました。それは私のためにうまくいった。もう一度お試しください:

library(rvest) 
url <- "http://www.baseball-reference.com/leagues/NL/2016-standard-batting.shtml" 
data <- read_html(url) %>% html_nodes(".stats_table") %>% html_table() 
head(data[[1]]) 
head(data[[2]]) 
+0

ありがとうございますが、それだけで私に空のリストを与えています。それは実際にあなたのために働いたのですか? – JZachary

+0

私はcssクラスをどのように指定したかを修正しました。( ".stats_table"は基本的な ".table"ではないはずでした) – mkearney

+0

もう一度ありがとうございます!そのCSSセレクターの正しいデータですが、文字列の中に空白を入れてください私はそれがローカルなものかどうか疑問に思っています。私は64ビットのウィンドウ10で、どのオペレーティングシステムを使用していますか? – JZachary

関連する問題