scikit-bioを使用してfastq形式のテキストファイルを読み込もうとしています。scikit-bioでfastqを読むための最速の方法
かなり大きなファイルであるため、操作の実行は非常に遅いです。
最終的に、私は辞書にFASTQファイルをdereplicateしようとしています:時間の
f = 'Undetermined_S0_L001_I1_001.fastq'
seqs = skbio.io.read(f, format='fastq')
seq_dic = {}
for seq in seqs:
seq = str(seq)
if seq in seq_dic.keys():
seq_dic[seq] +=1
else:
seq_dic[seq] = 1
ほとんどをここでは、ファイルの読み込み時に使用されます。
%%time
f = 'Undetermined_S0_L001_I1_001.fastq'
seqs = skbio.io.read(f, format='fastq')
for seq in itertools.islice(seqs, 100000):
seq
CPU times: user 46.2 s, sys: 334 ms, total: 46.5 s
Wall time: 47.8 s
私の理解では、ということですシーケンスを検証しても実行時間は改善されませんが、そのようには見えません。
%%time
f = 'Undetermined_S0_L001_I1_001.fastq'
seqs = skbio.io.read(f, format='fastq', verify=False, variant='illumina1.8')
for seq in itertools.islice(seqs, 100000):
seq
CPU times: user 47 s, sys: 369 ms, total: 47.4 s
Wall time: 48.9 s
私の質問は、なぜverify=False
が実行時間を改善していないのか、第二にscikit-bioを使ってシーケンスを読み込む方が速いのですか?
おかげで素晴らしいレスポンス/ソリューションです! – johnchase