2016-04-11 9 views
0

私はRの中に、このファイルを読み込もうとしている:私は最初にread.delim()すべてのものを使用する場合https://dataverse.harvard.edu/dataset.xhtml?persistentId=hdl:1902.1/21447#(commoncontent2012.tabファイル)読み取るタブ区切りファイルの行がない

は大丈夫そうです。しかし、観察すべきものの約3分の2しか存在していない。 read.table()を使用すると、正しい行数がインポートされます。ただし、列名には他にも問題があります。

+3

この投稿にはデータの小さなサブセットを含めてください。オフサイトリソースへのリンクは、予告なしにオフラインになる可能性があるため、避けてください。さらに、RDataのバージョンをダウンロードし、 'load'を使ってRにインポートするのはなぜですか? –

+0

問題は引用に関連しているようです。 'quote = '''に設定すると、正しい行数を持ちます。それはテキスト文字列のいくつかの問題を作成しています... –

答えて

1

あなたが言いましたが、ウェブサイトがあなたに推し進めるかもしれないものにもかかわらず、言及したファイル(私が思った)はタブ区切りのファイルではありません。

require(foreign) 
inp <- read.dta("~/Downloads/commoncontent2012.dta") 
str(inp) 
# a really "wide" file 
'data.frame': 54535 obs. of 479 variables: 
$ V101       : int 162390854 162397903 162377974 164027062 164852532 166088596 162312322 162347328 162138459 162263731 ... 
$ V103       : num 0.213 0.572 0.371 0.511 0.788 ... 
$ comptype      : Factor w/ 13 levels "Windows Desktop",..: 2 1 1 1 2 1 1 1 2 2 ... 
$ inputzip      : int NA NA 92637 NA NA NA 33914 NA NA NA ... 
$ birthyr      : int 1928 1947 1923 1967 1944 1956 1937 1931 1956 1954 ... 
$ gender       : Factor w/ 4 levels "Male","Female",..: 1 1 2 2 1 1 2 1 1 1 ... 
$ educ       : Factor w/ 8 levels "No HS","High school graduate",..: 6 5 6 3 6 5 3 2 3 6 ... 
$ race       : Factor w/ 10 levels "White","Black",..: 1 1 1 1 3 1 1 1 1 1 ... 
$ hispanic      : Factor w/ 4 levels "Yes","No","Skipped",..: 2 2 2 2 NA 2 2 2 2 2 ... 
$ votereg      : Factor w/ 5 levels "Yes","No","Don't know",..: 1 1 1 1 1 1 1 1 1 1 ... 
$ regzip       : int NA NA NA NA NA NA NA NA NA NA ... 
# snipped the rest of the output 

をしかし、私はまた、拡張したときcommoncontent.tabファイルが含まれていることdataverse.zipという名前のファイルを見て:それは「.dta」の拡張子を持つのStata形式のファイルですので、パッケージの外国からread.dtaを使用しています。 read.delimを読んだとき、私は得る:

> inp2 <- read.delim("~/Downloads/dataverse_files/commoncontent2012.tab") 
> str(inp2) 
'data.frame': 30140 obs. of 479 variables: 
$ V101       : int 162390854 162397903 162377974 164027062 164852532 166088596 162312322 162347328 162138459 162263731 ... 
$ V103       : num 0.213 0.572 0.371 0.511 0.788 ... 
$ comptype      : int 2 1 1 1 2 1 1 1 2 2 ... 
$ inputzip      : int NA NA 92637 NA NA NA 33914 NA NA NA ... 
$ birthyr      : Factor w/ 78 levels "__NA__","1918",..: 12 31 7 51 28 40 21 15 40 38 ... 
$ gender       : int 1 1 2 2 1 1 2 1 1 1 ... 
$ educ       : int 6 5 6 3 6 5 3 2 3 6 ... 
$ race       : int 1 1 1 1 3 1 1 1 1 1 ... 
# rest of output deleted 

それでは、どのようにこれはあなたがあなたの問題だった正確に何を言わなかったことから、これらのファイルまたは何を見ているにすべきだと思います何と比較ありません。

関連する問題