bioinformatics

    1

    1答えて

    で最も一般的なK-マーとapperanceのその数を見つける私は大FASTQファイルの中で最も頻度の高いK-マーを見つけようとしています。私の計画では、misra-griesアルゴリズムを使用して最も頻繁なk-mersを見つけ出し、次に2回目のパスで頻繁にk-merの数をファイル内で検索しました。しかし、私のアルゴリズムは十分に効率的だとは思わない。ここに私の最初のドラフトがあります。 私はこのD

    3

    1答えて

    私は以下の小さな例のようなファイルを持っています。 4行ごとに1つのIDに関連付けられています。各IDの2行目はNで始まります。最初の行でNを削除したい場合は、それ以外はすべて同じままです。 私はそれをPythonで行いたいと思います。あなたはそれをする方法を知っていますか? 例: @SRR2163140.1 HISEQ:148:C670LANXX:3:1101:1302:1947 length=

    1

    1答えて

    これは私の最初の投稿ですので、何の不自由な点についても心からお詫び申し上げます。 私は、関数getProfileData()を使ってcBioPortalからRNAseqデータを抽出しようとしています。私は、このリストの要素から生成されたパラメータを使って、このリストの各要素に対してこの関数を呼び出す必要があります。私は、この機能によって呼び出されるライブラリー、サンプルの癌およびサンプル遺伝子を含

    3

    1答えて

    バイオフォーマットをPythonで使用して顕微鏡画像(.lsm、.czi、.lif) 、名前をつけます)、メタデータを印刷して、画像を表示します。 ome = bf.OMEXML(md)私にエラーが表示されます(下記)。私はそれがmdの中に保存されている情報について話していると思います。 mdの情報がすべてASCIIでないことが好きではありません。しかし、私はこの問題をどのように克服するのですか?

    0

    1答えて

    私は16の核からのゲノムデータを持っています。最初の列は核を表し、次の2つの列は足場(ゲノムのセクション)および足場の位置をそれぞれ表し、最後の2つの列はそれぞれヌクレオチドおよびカバレッジを表す。異なる核内で同じ足場と位置が存在し得る。 開始位置と終了位置(足場とそれぞれの位置)の入力を使用して、開始から終了までの範囲内の各ニュークリアのデータ(ヌクレオチドとカバレッジ)を示すcsvファイルを出

    1

    1答えて

    私は現在htslibを使用していますが(bamtoolsも使用できますが)thisなどの連続読み込みを取得できますが、このコードを編集する方法が不思議ですm番目の染色体からn番目の染色体を読み取るのではなく、それを連続的に読み取ることです。これは可能ですか?

    0

    1答えて

    この質問は適切であると思います。私はそれがすべての一致の位置や長さを返しますgregexpr使用する場合一方で、それは、私の最初の試合の位置(および長さ)を返しregExprの使用している場合は > x <- "ABCDDDDDABC" :私はのような文字列を持っている場合 。 > regexpr("ABC",x) [1] 1 attr(,"match.length") [1] 3 a

    -1

    2答えて

    xと呼ばれる文字列のベクターに一連のヌクレオチド配列があります。 xにいくつかのモチーフがあるかどうかを確認したいと思います。私は行がXの配列であり、列がパターン/モチーフがベクトルsdseqsにあるデータフレームまたはテーブルを作成したいと思います。 sdframe <- data.frame sdseqs = c("AGGAG.+ATG", "AGAAG.+ATG","AAAGG.+ATG

    0

    1答えて

    現在、Bioconductorの「msa」パッケージを使用して複数の配列アラインメントを行っています。私はこれを使ってコンセンサス配列(msaConsensusSequence)と保存スコア(msaConservationScore)を計算しています。これは私に値である出力を与えます... ConsensusSequence:(小文字= 20%+保全、大文字= 80%+保全、= < 20%保護)