2011-12-01 12 views
17

私は定期的に、data.frameの欠損値を別のレベルの集計にある他のdata.frameの値に置き換える必要がある状況があります。たとえば、郡データがいっぱいのdata.frameがある場合、別のdata.frameに格納された状態値でNA値を置き換えることができます。同じ書いた後にmerge ... ifelse(is.na())ヤダヤダ数十回私はこれを行うために機能を書き留めて書くことに決めました。ここであるdata.frameのNaAsを別のdata.frameの値で置き換える関数の作成

は、私はそれを使用する方法の例と一緒に、私は調理ものです:

fillNaDf <- function(naDf, fillDf, mergeCols, fillCols){ 
mergedDf <- merge(naDf, fillDf, by=mergeCols) 
for (col in fillCols){ 
    colWithNas <- mergedDf[[paste(col, "x", sep=".")]] 
    colWithOutNas <- mergedDf[[paste(col, "y", sep=".")]] 
    k <- which(is.na(colWithNas)) 
    colWithNas[k] <- colWithOutNas[k] 
    mergedDf[col] <- colWithNas 
    mergedDf[[paste(col, "x", sep=".")]] <- NULL 
    mergedDf[[paste(col, "y", sep=".")]] <- NULL 
} 
return(mergedDf) 
} 

## test case 
fillDf <- data.frame(a = c(1,2,1,2), b = c(3,3,4,4) ,f = c(100,200, 300, 400), g = c(11, 12, 13, 14)) 
naDf <- data.frame(a = sample(c(1,2), 100, rep=TRUE), b = sample(c(3,4), 100, rep=TRUE), f = sample(c(0,NA), 100, rep=TRUE), g = sample(c(0,NA), 200, rep=TRUE)) 
fillNaDf(naDf, fillDf, mergeCols=c("a","b"), fillCols=c("f","g")) 

私は、このランニングを得たので、後に、私は誰かが、おそらく私の前に、この問題を解決し、Aでいることを、この奇妙な感じがしましたはるかにエレガントな方法。この問題には、より良い/より簡単な/より速い解決策がありますか?また、関数の途中でループを削除する方法はありますか?そのループはそこにあります。なぜなら、私はしばしば、複数の列でNAを置き換えているからです。そして、はい、関数は、我々が記入している列がからまで同じであると仮定し、我々はからまでを記入している列をマージに適用します。

ガイダンスやリファクタリングが役立ちます。

EDIT 12月2日私が修正した私の例には論理的な欠陥があることが分かりました。

答えて

14

どのように大きな質問です。ここではあなたのアプローチの少しより簡潔な/堅牢なバージョンです

# Convert data.frames to data.tables (i.e. data.frames with extra powers;) 
library(data.table) 
fillDT <- data.table(fillDf, key=c("a", "b")) 
naDT <- data.table(naDf, key=c("a", "b")) 


# Merge data.tables, based on their keys (columns a & b) 
outDT <- naDT[fillDT]  
#  a b f g f.1 g.1 
# [1,] 1 3 NA 0 100 11 
# [2,] 1 3 NA NA 100 11 
# [3,] 1 3 NA 0 100 11 
# [4,] 1 3 0 0 100 11 
# [5,] 1 3 0 NA 100 11 
# First 5 rows of 200 printed. 

# In outDT[i, j], on the following two lines 
# -- i is a Boolean vector indicating which rows will be operated on 
# -- j is an expression saying "(sub)assign from right column (e.g. f.1) to 
#  left column (e.g. f) 
outDT[is.na(f), f:=f.1] 
outDT[is.na(g), g:=g.1] 

# Just keep the four columns ultimately needed 
outDT <- outDT[,list(a,b,g,f)] 
#  a b g f 
# [1,] 1 3 0 0 
# [2,] 1 3 11 0 
# [3,] 1 3 0 0 
# [4,] 1 3 11 0 
# [5,] 1 3 11 0 
# First 5 rows of 200 printed. 
+0

クール。いくつかの解説はそれを理解するのに役立つかもしれません。それは簡潔に見える! :) –

+0

OK - 少しコメントしました。もっと学ぶことに興味があるならば、 '?data.table'の 'Examples'セクションは典型的なもので、作業に20分ほどかかるでしょう。特に、あなたが大規模なデータを扱う人なら、それはあなたのように見えますが、それは実際には最善の時間を投資する価値があります。 –

+0

ありがとうございました。それは本当に役に立ちます。 –

5

はここdata.tableソリューションです。 forループをlapplyへの呼び出しで置き換えることができますが、ループを読みやすくなっています。

この関数はすべての列を想定していますの中のmergeColsは、NAsを埋め込んだフェアなゲームです。私はこれが本当に役立つかどうかはわかりませんが、私は投票者とチャンスを取るでしょう。

fillNaDf.ju <- function(naDf, fillDf, mergeCols) { 
    mergedDf <- merge(fillDf, naDf, by=mergeCols, suffixes=c(".fill","")) 
    dataCols <- setdiff(names(naDf),mergeCols) 
    # loop over all columns we didn't merge by 
    for(col in dataCols) { 
    rows <- is.na(mergedDf[,col]) 
    # skip this column if it doesn't contain any NAs 
    if(!any(rows)) next 
    rows <- which(rows) 
    # replace NAs with values from fillDf 
    mergedDf[rows,col] <- mergedDf[rows,paste(col,"fill",sep=".")] 
    } 
    # don't return ".fill" columns 
    mergedDf[,names(naDf)] 
} 
3

私の好みは、私は両方の行方向および列方向、そのまま元のデータフレームの順序を保つことができるようにマッチングを行い、マージからコードを引き出し、それを自分自身を行うことであろう。私はまた、ループを避けるために行列インデックスを使用していますが、そうするためには、修正されたfillColsで新しいデータフレームを作成し、元の列をそれに置き換えてください。私はそれを直接埋めることができると思ったが、明らかに、data.frameの部分を置き換えるために行列の順序付けを使うことはできないため、ある状況では名前のループが速くなると驚くことはない。行列のインデックス付き

fillNaDf <- function(naDf, fillDf, mergeCols, fillCols) { 
    fillB <- do.call(paste, c(fillDf[, mergeCols, drop = FALSE], sep="\r")) 
    naB <- do.call(paste, c(naDf[, mergeCols, drop = FALSE], sep="\r")) 
    na.ind <- is.na(naDf[,fillCols]) 
    fill.ind <- cbind(match(naB, fillB)[row(na.ind)[na.ind]], col(na.ind)[na.ind]) 
    naX <- naDf[,fillCols] 
    fillX <- fillDf[,fillCols] 
    naX[na.ind] <- fillX[fill.ind] 
    naDf[,colnames(naX)] <- naX 
    naDf 
} 

ループ付:

fillNaDf2 <- function(naDf, fillDf, mergeCols, fillCols) { 
    fillB <- do.call(paste, c(fillDf[, mergeCols, drop = FALSE], sep="\r")) 
    naB <- do.call(paste, c(naDf[, mergeCols, drop = FALSE], sep="\r")) 
    m <- match(naB, fillB) 
    for(col in fillCols) { 
    fix <- which(is.na(naDf[,col])) 
    naDf[fix, col] <- fillDf[m[fix],col] 
    } 
    naDf 
} 
関連する問題