2016-06-16 4 views
1

パンダデータフレームに固有の名前を数える:は、私はこの単純なデータフレームに大きなデータフレームを簡略化している

IDX POS  REF ALT 
13 633  C A 
15 643  C T 
42 2015 G A 
43 2016 G A 
151 9538 T C 
154 9542 TC TCC,T 
169 10041 T A 
170 10041 T TAA,TA 

データは、ヌクレオチド位置と参照ゲノムのヌクレオチドおよび代替ヌクレオチドとゲノム領域からですその同じ位置のために異なる人。私はいくつかのポジション(9542と10041)に2つの異なるヌクレオチドの選択肢があることを持っています。

私はALT列を反復して、ユニークなヌクレオチドの数を数えてカウントと別の列を作成したいと考えています。私はこれがpython pandasを使ってどのようにできるのか見ていません。

新しいデータフレームは、このようになります。

IDX POS  REF ALT COUNT 
13 633  C A  1 
15 643  C T  1 
42 2015 G A  1 
43 2016 G A  1 
151 9538 T C  1 
154 9542 TC TCC,T 2 
169 10041 T A  1 
170 10041 T TAA,TA 2 

どのようにパンダ(またはちょうどのpython)でこれを行うことは可能でしょうか?

ありがとうございます。

ロドリゴ

答えて

2

私はcountコンマいただきたいと1

df['COUNT'] = df.ALT.str.count(',') + 1 
を追加します
関連する問題