bioinformatics

    2

    1答えて

    は、私は、識別子の束を変換するために、これを使用したいが、私は分類学上のランクは、各分類コードに割り当てられているかを正確に知る必要があります。下に示すのはコンバージョンの例ですが、タクソノミの呼び出しのラベルを何にするかわかりません。基本的な分類学上のランクは以下のとおりです。(ドメイン、王国、門、クラス、順序、科、属、及び種)https://en.wikipedia.org/wiki/Taxo

    2

    1答えて

    私のfastaファイルをサブセット化して、特定の母集団に属するシーケンスを検索したいと思います。以下は私のファイルのサンプルです。 >CLocus_12706_Sample_44_Locus_36326_Allele_0 [JoJo_s113.fq; groupI, 125578, +] TGCAGCATGCTGGTGAACGCGTCATCATAAGCCTGTTGGCGAGCCAGCAGAAGG

    2

    1答えて

    私はPython 2.6.6を使用していますが、fastqの読み取りを、file2で、file1で重複している(つまり一致しています)を削除しようとしています。ここで私が実装しようとしているコードは次のとおりです。 ref_reads = SeqIO.index("file1.fastq", "fastq") spk_reads = SeqIO.index("file2.fastq", "fas

    1

    1答えて

    コマンドシステム()ではRのシェルスクリプト(NCBIのBLAST +)を実行したいが、シェルスクリプトに複数のスレッドを設定してもスレッドは1つしかないようだ。この場合、複数のスレッドを使用するにはどうすればよいですか? コードは、私がRで16個のコアと、この実行を取得するにはどうすればよい system("blastp -query query.fasta -db db.fasta -num_

    2

    1答えて

    大規模な50 MBのDNA配列と15文字程度の小さなものを与えたPythonプログラムを書く必要があります。これは15文字すべての配列のリストを返します。 1つは与えられただけでなく、大きなもののどこにあるのか。 私の現在のアプローチは、最初にすべてのサブシーケンスを取得することです。その後、 def get_subsequences_of_size(size, data): seque

    0

    1答えて

    ペアサンプル(腫瘍と正常)を使用してgatk再較正を使いたいです。私はパンダを使ってデータを解析する必要があります。それが私が怒ったものです。 expand("mapped_reads/merged_samples/{sample[1][tumor]}/{sample[1][tumor]}_{sample[1][normal]}.bam", sample=read_table(config["co

    0

    1答えて

    私はバイオインフォマティクスのパイプラインを作成するためにsnakemakeを使いたいと思っていましたが、私はそれをgoogledしてドキュメントやその他のものを読んでいましたが、それでも動作する方法はまだ分かりません。 生データファイルのいくつかを以下に示します。 RAWDATA/010_0_bua_1.fq.gz、RAWDATA/010_0_bua_2.fq.gz RAWDATA/11_15_

    1

    1答えて

    大きな配列(F)内で発生する小さなDNA配列(R)の数を検索してカウントしようとしていますが、Rには数文字変数。私が考えることができる最も簡単な方法は、Rの比率を設定し、Fの80%を超えるすべてのヒットをカウントすることですが、これを行うようなコマンド(difflibのSequenceMatcherやget_close_matchesなど)は動作するリストが必要です。私はそのようなリストにFを入れ

    1

    1答えて

    私は特定の遺伝子を抽出したい遺伝子バンクファイル.gbkを持っています。私の問題は次のとおりです。 ファイルを処理するには、各軌跡のヘッダーが特定の形式でなければならず、ファイル内にはありません。私は、ファイルを解析し、次のようにヘッダを置き換えたい: LOCUS NODE_1_length_393688_cov_17.8554393688 bp DNA linear BCT22-MAY-20

    2

    1答えて

    初めてbiopythonを使用しています。これが基本的な質問であれば私を許してください。 私はシーケンスを入力し、それらを整列させ、元のシーケンス(ungapped)と整列されたシーケンス(gapped)のインデックス位置を参照できるようにしたいと思います。 私の実際の世界の例はエノラーゼ(Uniprot P37869およびP0A6P9)です。基質結合リジンは、大腸菌では392、枯草菌では389で