2017-12-07 20 views
0

UCIの酵母データセットで興味深いです(リンクをご覧ください)。データはテキスト式で保存されます。私はそれをRstudioにロードしたいと思います。私はそれをオフィスワード(コピー&ペースト)で保存しました。それからRスタジオにロードしようとしましたが、データの代わりに不明瞭な言葉がありました。ウェブサイトからテキストデータセットをダウンロードするには

https://archive.ics.uci.edu/ml/datasets/Yeast

任意のヘルプしてください?

答えて

3

データを取得するのは簡単です。ファイルURLをread.tableに直接渡すことができます。名前を取得することは、テキストファイルに埋め込まれているので、はるかに多くの作業です。

library(tidyverse) 

yeast <- read.table('https://archive.ics.uci.edu/ml/machine-learning-databases/yeast/yeast.data', stringsAsFactors = FALSE) 

l <- readLines('https://archive.ics.uci.edu/ml/machine-learning-databases/yeast/yeast.names') 
l <- l[(grep('^7', l) + 1):(grep('^8', l) - 1)] 
l <- l[grep('\\d\\..*:', l)] 

names(yeast) <- make.names(c(sub('.*\\d\\.\\s+(.*):.*', '\\1', l), 'class')) 

str(yeast) 
#> 'data.frame': 1484 obs. of 10 variables: 
#> $ Sequence.Name: chr "ADT1_YEAST" "ADT2_YEAST" "ADT3_YEAST" "AAR2_YEAST" ... 
#> $ mcg   : num 0.58 0.43 0.64 0.58 0.42 0.51 0.5 0.48 0.55 0.4 ... 
#> $ gvh   : num 0.61 0.67 0.62 0.44 0.44 0.4 0.54 0.45 0.5 0.39 ... 
#> $ alm   : num 0.47 0.48 0.49 0.57 0.48 0.56 0.48 0.59 0.66 0.6 ... 
#> $ mit   : num 0.13 0.27 0.15 0.13 0.54 0.17 0.65 0.2 0.36 0.15 ... 
#> $ erl   : num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... 
#> $ pox   : num 0 0 0 0 0 0.5 0 0 0 0 ... 
#> $ vac   : num 0.48 0.53 0.53 0.54 0.48 0.49 0.53 0.58 0.49 0.58 ... 
#> $ nuc   : num 0.22 0.22 0.22 0.22 0.22 0.22 0.22 0.34 0.22 0.3 ... 
#> $ class  : chr "MIT" "MIT" "MIT" "NUC" ... 

...あるいは単に手でそれらすべてをコピーします。あなたが好きなら、あなたは正規表現でそれらを抽出することができます。

関連する問題