ファイルのPython正規表現

ファイル内容をREでフィルタリングしたいのですが、タンパク質に関するファイルです。タンパク質ごとにいくつかの情報があります。二つのタンパク質のためのファイルのPython正規表現

例：

>sp|B3MGT3|AKTP2_DROAN (266 aa) 

Protein crossbronx-like. [Drosophila ananassae (Fruit fly)] 

MWYSIRNNQRMALIKQGYKILAEYRLVQDHLKNIYAIPSYASGLHWFGVIFVHSGIYAGSMFRFSILLPENFPDDTILPT 

VIFNAAIFHPHICPHSKSLDLGPCFKEWRKDQHHIWHLLRYIQAVFADPEGSICTGKSPSGDLVVLDEVNNLEALNMLAK 

SRPEYIKRIQELAISSRRHMYDKPMIEDPHYIIVEPYCAERHLRFMEQLKSPSWREATCEDDSPPAELLGHIDSSRQLDE 

DEANQRGKLQAATTDLQHGARCSVAQ 

     131 - 138:  GsictGKS 





>sp|Q9AT00|TGD3_ARATH (345 aa) 

Protein TRIGALACTOSYLDIACYLGLYCEROL 3, chloroplastic. [Arabidopsis thaliana (Mouse-ear cress)] 

MLSLSCSSSSSSLLPPSLHYHGSSSVQSIVVPRRSLISFRRKVSCCCIAPPQNLDNDATKFDSLTKSGGGMCKERGLEND 

SDVLIECRDVYKSFGEKHILKGVSFKIRHGEAVGVIGPSGTGKSTILKIMAGLLAPDKGEVYIRGKKRAGLISDEEISGL 

RIGLVFQSAALFDSLSVRENVGFLLYERSKMSENQISELVTQTLAAVGLKGVENRLPSELSGGMKKRVALARSLIFDTTK 

EVIEPEVLLYDEPTAGLDPIASTVVEDLIRSVHMTDEDAVGKPGKIASYLVVTHQHSTIQRAVDRLLFLYEGKIVWQGMT 

HEFTTSTNPIVQQFATGSLDGPIRY 

    117 - 124:  GpsgtGKS

IはREでのみタンパク質について、上記の情報をフィルタリングする必要があり、それらの配列の "[AG] {4} GK [ST]。"。

今私は2つの質問があります。これは動作しません

を...誰もがなぜ知っていますか？

import re 
file = open ("ploop.fa", "r") 
motief = re.search("[AG].{4}GK[ST]", file) 

for line in file: 
if motief in line: 
print (line)

だから、私はRE、だけではなく配列を含有するタンパク質のための全ての情報（Accessioncode、名前、アミノ酸など）が必要です。これどうやってするの？

出典

2016-04-14 jordinec

：すべての有用な行のリストを作成する

regex = "[AG].{4}GK[ST]" for line in f: if re.search(regex, line): print(line)

リストの内包のバージョンは次のようになりますか？また、あなたが印刷しようとしているこの 'line'は何ですか？どこにも定義されていません。 –

さて、正規表現は[あなたのテキストに一致するものが見つかりません]（https://regex101.com/r/hI5gS8/1）。また、ファイルの内容を正規表現に渡すためには、ファイルを読む必要があります。上記のサンプルテキストの正確な出力はどれくらいですか？ –

あなたの最初の質問のために、 'line'とは何でしょうか？ – Adib

ああ、それは私が試したものです。また試しました：

import re 
file = open ("ploop.fa", "r") 
motief = re.search("[AG].{4}GK[ST]") 

for line in file: 
    if motief in line: 
    print (line)

ええ、ドットはランダムトークンでなければなりませんか？ AまたはGで始まり、次に4つのランダムな文字、次にGK、そしてSまたはTで始まるシーケンスのために必要です。

出典

2016-04-14 10:24:07 jordinec

私たちが求めているのは、ファイル内の行がどのように見えるかです。例えば、 'AGTASTAGTCTCTCTATGTGTCTATC'のようなものですか？ – Adib

これはタンパク質配列でありDNA配列ではないので、ほとんどすべての文字が可能です。（TKALLCKNFLKKWRMなど） – jordinec

例のスクリーンショット：http://i64.tinypic.com/ejbo2a.png – jordinec

可変モチーフをre.MatchObjectに設定しています。次に、あなたのループで

if motief in line:

はおそらくあなたが望む真

になることはありません正規表現を宣言し、それがあるかどうかを見つけるために、各ライン上にre.search使用することです。あなたは `.`は、正規表現で特別な意味を持っていることを理解して

[line for line in f if re.search(regex, line)]

出典

2016-04-14 16:14:55 kingledion

ファイルのPython正規表現

答えて

関連する問題