私は因子を多少使用することはほとんどなく、一般的にそれらを分かりやすくしていますが、特定の操作の詳細についてはあまり曖昧です。現在、私は「他者」への観察がほとんどないカテゴリをコーディング/コラプスしています。これを行うための素早い方法を探しています。おそらく20レベルの変数がありますが、それらの変数を1つにまとめることに興味があります。ここでR:因子レベル、recode rest to 'other'
data<-data.frame(employees=sample.int(1000,500),
naics=sample(c('621111','621112','621210','621310','621320','621330','621340','621391','621399','621410','621420','621491','621492','621493','621498','621511','621512','621610','621910','621991','621999'),100,replace=T)
)
関心の私のレベル、および別々のベクターでのラベルです。
#levels and labels
top8 <-c('621111','621210','621399','621610','621330','621310','621511','621420','621320')
top8_desc <- c('Offices of physicians',
'Offices of dentists',
'Offices of all other miscellaneous health practitioners',
'Home health care services',
'Offices of Mental Health Practitioners',
'Offices of chiropractors',
'Medical Laboratories',
'Outpatient Mental Health and Substance Abuse Centers',
'Offices of optometrists')
私は、カテゴリは、いくつかの観測を持っていたたびに、「その他」として分類し、それらすべてを列挙、factor()
コールを使用することができます。
上記の「top8」と「top8_desc」が実際のトップ8であると仮定すると、$ naicsというデータを要素変数として宣言し、その他のものを「その他」としてコード化する最良の方法は何ですか?
フムすることができます
plyr::mapvalues
のラッパーであり、しかし、それはおそらく最初に何らかの要因としてのコーディングが行われているのでしょう。それほど重要ではないと思います。 – ako変換されたコードを使用して、データフレーム内に常に追加の列を作成できます。 – kith
私はあなたの応答のこのバリエーションを試しました: 'levels(data $ naics)[which(level $ data)%])< - " other "' – ako