文字列中の文字をrでグループ単位で数える方法は？

私は以下のようなデータフレームを持っています。文字列中の文字をrでグループ単位で数える方法は？

ID<-c('001','002','003','004','005') 
TYPE<-c('ABB','BCC','AAA','BBA','BCC') 
Group<-c('1','2','2','2','1') 
df<-data.frame(ID,TYPE,Group) 
df 

    ID TYPE Group 
1 001 ABB  1 
2 002 BCC  2 
3 003 AAA  2 
4 004 BBA  2 
5 005 BCC  1

各グループの各文字の頻度と割合を知るためのテーブルを取得したいと考えています。

 Group 
     1 2 
A  1 4 
B  3 3 
C  2 2 
Total 6 9

そして、それの割合

 Group 
     1  2 
A  0.17 0.44 
B  0.50 0.33 
C  0.33 0.22 
Total% 1.00 1.00

私は次のことをしようと、それはエラーを示しています。

str_count(df$TYPE[(df$Group==1], pattern = "A") 
str_count(df$TYPE[(df$Group==2], pattern = "A") 
str_count(df$TYPE[(df$Group==1], pattern = "B") 
str_count(df$TYPE[(df$Group==2], pattern = "B") 
str_count(df$TYPE[(df$Group==1], pattern = "C") 
str_count(df$TYPE[(df$Group==2], pattern = "C")

ありがとうございます。

出典

2016-06-27 Terence Tien

を：

tbl <- table(stack(`names<-`(strsplit(df$TYPE, ""), df$Group))) 
#  ind 
#values 1 2 
#  A 1 4 
#  B 3 3 
#  C 2 2

その後、我々はできますパーセンテージを追加：

round(prop.table(tbl, 2), 2) 
#  ind 
#values 1 2 
#  A 0.17 0.44 
#  B 0.50 0.33 
#  C 0.33 0.22

ご希望の場合合計：

addmargins(tbl, 1)

出典

2016-06-27 01:37:06

ありがとうございます。しかし、それは "strsplit（df $ TYPE、" "）のエラー：文字以外の引数" ... –

が表示されます。 'class（df $ TYPE）'をチェックしてください。あなたは誤って変数を因子としてコード化しました。変数をモデリングのカテゴリ変数として使用しない場合は、 'stringsAsFactors = FALSE'を使用する必要があります。 –

@TerenceTien 'as.character'を使って、' strsplit（as.character（df $ Type）、 ""） ' –

あなたはdplyrとtidyrを使用することができます。

library(dplyr); library(tidyr) 
df %>% group_by(Group) %>% summarise(TYPE = unlist(strsplit(TYPE, ""))) %>% 
     group_by(Group, TYPE) %>% summarise(Count = n()) %>% spread(Group, Count) 

# Source: local data frame [3 x 3] 
# 
# TYPE  1  2 
# (chr) (int) (int) 
# 1  A  1  4 
# 2  B  3  3 
# 3  C  2  2

パーセント数を取得するには：どのようにstackとtableとベースは約

df %>% group_by(Group) %>% summarise(TYPE = unlist(strsplit(TYPE, ""))) %>% 
     group_by(Group, TYPE) %>% summarise(Count = n()) %>% 
     spread(Group, Count) %>% mutate_each(funs(round(./sum(.), 2)), -TYPE) 

# Source: local data frame [3 x 3] 
# 
# TYPE  1  2 
# (chr) (dbl) (dbl) 
# 1  A 0.17 0.44 
# 2  B 0.50 0.33 
# 3  C 0.33 0.22

出典

2016-06-27 01:36:02 Psidom

あなたは簡素化することができます： 'DF％>％separate_rows（TYPE、9月= '\\ B'）％>％のカウント（TYPE、グループ）％を>％spread（Group、n）％>％ungroup（）％>％mutate_each（funs（prop.table）、-TYPE） ' – alistaire

@alistaireここで、関数 'separate_rows'はどこから来たのですか？ – Psidom

最近、「tidyr」に追加されました（https://github.com/hadley/tidyr/blob/master/NEWS.md） – alistaire

文字列中の文字をrでグループ単位で数える方法は？

答えて

関連する問題