プログラミング、統計、およびRの新機能:Rに大量のデータセットをロードしようとしています。ASC形式です。私はread.tableからrgdalまで、read.ascに何時間も何も試みずに成功しませんでした。ファイルは1.5ギガバイトですので、テキストエディタで開くことができません。私は家庭教師を得て、彼は行ごとに読む必要があると言いました。この計画は最初の50件の記録を読み、それが成功したかどうかを確認することでした。私は空の列をいくつか残しています。ここに明らかな問題はありますか?すべての列名と文字番号を確認しました。作業ディレクトリとファイル名が正しいです。 142列}HCUP KIDへのインポートR
上for(i in seq(1,numRows)) {
line = readLines(input,n=1)
df$HOSP_KID[i] = substr(input, 1, 5)
df$RECNUM[i] = substr(input, 6, 13)
df$AGE[i] = substr(input, 14, 16)
df$AGE_NEONATE[i] = substr(input, 17, 18)
df$AMONTH[i] = substr(input, 19, 20)
df$AWEEKEND[i] = substr(input, 21, 22)
df$DIED[i] = substr(input, 23, 24)
df$DISCWT[i] = substr(input, 25, 35)
df$DISPUNIFORM[i] = substr(input, 36, 37)
df$DQTR[i] = substr(input, 38, 39)
df$DRG[i] = substr(input, 40, 42)
df$DRG24[i] = substr(input, 43, 45)
df$DRGVER[i] = substr(input, 46, 47)
df$DRG_NoPOA[i] = substr(input, 48, 50)
df$DX1[i] = substr(input, 51, 55)
df$DX2[i] = substr(input, 56, 60)
df$DX3[i] = substr(input, 61, 65)
df$DX4[i] = substr(input, 66, 70)
などのためhttp://www.hcup-us.ahrq.gov/db/nation/kid/tools/stats/FileSpecifications_KID_2012_Core.TXT
input = file("KID2012Core.asc","r")
numRows = 50;
df = data.frame(row=seq(1,numRows),
HOSP_KID = NA,
RECNUM = NA,
AGE = NA,
AGE_NEONATE = NA,
AMONTH = NA,
AWEEKEND = NA,
DIED = NA,
DISCWT = NA,
DISPUNIFORM = NA,
DQTR = NA,
DRG = NA,
DRG24 = NA,
DRGVER = NA,
DRG_NoPOA = NA,
DX1 = NA,
DX2 = NA,
DX3 = NA,
DX4 = NA,
DX5 = NA,
DX6 = NA,
DX7 = NA,
DX8 = NA,
DX9 = NA,
DX10 = NA,
DX11 = NA,
DX12 = NA,
DX13 = NA,
DX14 = NA,
DX15 = NA,
DX16 = NA,
DX17 = NA,
DX18 = NA,
DX19 = NA,
DX20 = NA,
DX21 = NA,
DX22 = NA,
DX23 = NA,
DX24 = NA,
DX25 = NA,
DXCCS1 = NA,
DXCCS2 = NA,
DXCCS3 = NA,
DXCCS4 = NA,
など:それはこのように行われていた理由を見ることができるようにここで
は、レコードレイアウトへのリンクです
ありがとうございます!
私は、newbの合計を許して!これらの両方がデータフレームを作成しているようです...または、私のKIDCORE2012.ascファイルが読み込まれるべき場所である 'a_big_fwf.txt'ですか? – user7183863
これは1.5Gbのものへのパスです。 'skip'やそれ以外のものでそれを微調整する必要があるかもしれません。データを見ることなく言うことは難しいです。 – alistaire