ファイル内容をREでフィルタリングしたいのですが、 タンパク質に関するファイルです。タンパク質ごとにいくつかの情報があります。二つのタンパク質のためのファイルのPython正規表現
例:
>sp|B3MGT3|AKTP2_DROAN (266 aa)
Protein crossbronx-like. [Drosophila ananassae (Fruit fly)]
MWYSIRNNQRMALIKQGYKILAEYRLVQDHLKNIYAIPSYASGLHWFGVIFVHSGIYAGSMFRFSILLPENFPDDTILPT
VIFNAAIFHPHICPHSKSLDLGPCFKEWRKDQHHIWHLLRYIQAVFADPEGSICTGKSPSGDLVVLDEVNNLEALNMLAK
SRPEYIKRIQELAISSRRHMYDKPMIEDPHYIIVEPYCAERHLRFMEQLKSPSWREATCEDDSPPAELLGHIDSSRQLDE
DEANQRGKLQAATTDLQHGARCSVAQ
131 - 138: GsictGKS
>sp|Q9AT00|TGD3_ARATH (345 aa)
Protein TRIGALACTOSYLDIACYLGLYCEROL 3, chloroplastic. [Arabidopsis thaliana (Mouse-ear cress)]
MLSLSCSSSSSSLLPPSLHYHGSSSVQSIVVPRRSLISFRRKVSCCCIAPPQNLDNDATKFDSLTKSGGGMCKERGLEND
SDVLIECRDVYKSFGEKHILKGVSFKIRHGEAVGVIGPSGTGKSTILKIMAGLLAPDKGEVYIRGKKRAGLISDEEISGL
RIGLVFQSAALFDSLSVRENVGFLLYERSKMSENQISELVTQTLAAVGLKGVENRLPSELSGGMKKRVALARSLIFDTTK
EVIEPEVLLYDEPTAGLDPIASTVVEDLIRSVHMTDEDAVGKPGKIASYLVVTHQHSTIQRAVDRLLFLYEGKIVWQGMT
HEFTTSTNPIVQQFATGSLDGPIRY
117 - 124: GpsgtGKS
IはREでのみタンパク質について、上記の情報をフィルタリングする必要があり、それらの配列の "[AG] {4} GK [ST]。"。
今私は2つの質問があります。これは動作しません
を...誰もがなぜ知っていますか?
import re file = open ("ploop.fa", "r") motief = re.search("[AG].{4}GK[ST]", file) for line in file: if motief in line: print (line)
だから、私はRE、だけではなく配列を含有するタンパク質のための全ての情報(Accessioncode、名前、アミノ酸など)が必要です。これどうやってするの?
:すべての有用な行のリストを作成する
リストの内包のバージョンは次のようになりますか?また、あなたが印刷しようとしているこの 'line'は何ですか?どこにも定義されていません。 –
さて、正規表現は[あなたのテキストに一致するものが見つかりません](https://regex101.com/r/hI5gS8/1)。また、ファイルの内容を正規表現に渡すためには、ファイルを読む必要があります。上記のサンプルテキストの正確な出力はどれくらいですか? –
あなたの最初の質問のために、 'line'とは何でしょうか? – Adib