（数が不足して？）文字列から3つの数字を抽出

私はSOから利益をしてきた、かなり長い間、今、今サインアップにしようとすることを決めた）他人を助けると、b）偉大な男からの助けを得る:)（数が不足して？）文字列から3つの数字を抽出

今

cho <- c("[M-H]: C4H4O2", 
"[M+Hac-H]: C5H10O6", 
"[M-H]: C6H4O3", 
"[M+Fa-H]: C7H6O", 
"[M-H]: C9H8O3", 
"[M-H]: C18H30O3);

私は数字を抽出するこのベクターからの順番に：私はこの（データのほんの少しのサブセット）のように見えたデータフレームから抽出されたベクトルを持って、私の質問に来るので

"C" の数を取得するには、 "H"、および "O" 原子：

temp <- strsplit(cho, "[^[:digit:]]"); 
temp <- as.numeric(unlist(temp)); 

#remove NAs 
temp <- temp[!is.na(temp)]; 

#split into three column matrix and convert to df to merge with original df 
temp <- as.data.frame(matrix(temp, ncol = 3, byrow = T));

Rが行列を生成するためのデータをリサイクルされる。この場合

は、大きなデータセットに対する私の場合には、生成されたtempベクトルは十分な長さと行列が生成なっているが、それは混乱です。これは、数字が2つしか抽出されない"[M+Fa-H]: C7H6O"などの場合によるものです。 "O"の後に "1"をつけて、3つの数字を2つではなく抽出できるようにするにはどうすればいいですか？このための回避策はありますか？

ご協力いただきありがとうございます！

出典

2017-01-25 munirbe

str_extract_allを使用できます。 CまたはHまたはOは、listでこれらの数字を抽出し、変換のいずれか、次の1つ以上の数字（\\d+）と一致する正規表現の前後参照を使用するようにinteger

library(stringr) 
lst <- lapply(str_extract_all(cho, "(?<=C|H|O)\\d+"), as.integer)

それともbase Rオプションが

です

read.csv(text=sub(".*C?(\\d+)H?(\\d+)O?(\\d*).*", 
       "\\1,\\2,\\3", cho), header=FALSE, fill=TRUE)

出典

2017-01-25 13:07:53 akrun

素晴らしいです！値が見つからない場合でも、私たちは1を挿入する必要があります –

また、正規表現を説明することができますステップバイステップ –

私よりもはるかに短いコードは、ありがとう！ 'base R'の解決策は私には完璧です.NAsだけが置き換えられます！ – munirbe

（数が不足して？）文字列から3つの数字を抽出

答えて

関連する問題