2016-10-07 8 views
1

私はKeywordsと呼ばれる列を持ち、150レベルの要素データ型です。これらのレベルのほとんどは、他のレベルまたはタイプミスの組み合わせです。 Keywordのレベルが1〜5インスタンスしかないすべての行を削除したいと思います。それ、どうやったら出来るの?例えばRのデータフレームから一意の因子レベルを含む行を削除するには?

のは、私がキーワードとして「」と300行、数百「はBさんと数百」Cさんがあるとしましょう。しかし、私はこれら3つのレベルのうちの1つでなければならない100のレベルを持っていますが、「A1」や「A2」のような変種です。私はちょうどデータのアイデアを得ることを試みているが、すべての比較的低い発生レベルがすべてのグラフを投げ捨てている。

答えて

4

あなたはレベルのリストから、希少な因子レベルをドロップするようにサブセット化した後dd$Keywords <- factor(dd$Keywords)またはdd$Keywords <- droplevels(dd$Keywords)のいずれかを使用することができます

tt <- table(dd$Keywords) 
rare_levels <- names(tt)[tt<5] 
dd <- subset(dd,!Keywords %in% rare_levels) 

ような何か(観測は、レベル自体は、subsetによって廃棄されませ)

4

あなたはn()

library(dplyr) 

mtcars %>% 
    mutate(cyl = as.factor(cyl)) %>% 
    group_by(cyl) %>% 
    filter(n() >12) # require each level with more than 12 obs 
パッケージの機能を使用することができます
+0

R6で 'install.packages(" dplyr ")'の間に404を取得しています: '/ R/win-library/3.3'にパッケージをインストール (libは不定) 依存関係 'R6'をインストールする URL 'https://cran.rstudio.com/bin/windows/contrib/3.3/R6_2.1.3.zip'を試しています install.packagesの警告: URL 'を開くことができません' ... R6_2 .1.3.zip ':HTTPステータスが' 404 Not Found 'でした。 download.file(url、destfile、method、mode = "wb"、...)のエラー: URL' ... R6_2.1.3を開くことができません。 zip ' ... ' dplyr 'パッケージが正常にアンパックされ、MD5合計がチェックされました。 –

関連する問題