2011-03-11 9 views
2

私はたくさんのヒストグラムを扱います。特に、これらのヒストグラムは、ヒトゲノム上のセグメントに沿ったベースコールのものである。変動分析のアルゴリズム

x軸に沿った各点は、DNAを構成する4つの窒素塩基(A、C、T、G)の1つであり、y軸は塩基が「呼び出される」ゲノムに沿って各塩基の同一性を単に決定している、ゲノムを配列決定するためにシーケンサー機によって認識される)を含む。

これらのヒストグラムの多くは、機械が十分な読み取り深さを得ることができない場合、プラトー様領域から0または(ほぼ-0)に降下するほぼ線形の低下を示す。スコアがゼロになると、シーケンサはベースのアイデンティティを決定できないことを意味します。これまでに二重螺旋を見たことがあるなら、シーケンサーは螺旋の1ラウンドの半分の識別を理解できないことを意味します。ゲノムの特定の領域は、他の領域よりも特徴づけが難しい。 > = 100のオーダーで、多数のベースコールを有するベース(またはxデータポイント)を明確に識別することができる。たとえば、1つのベースに対して合計250のコールがあり、248のTが呼び出され、1つのGが呼び出され、1つのAが呼び出された場合、それをTと呼びます。0ベースコールのあるリージョンは、近隣の地域から、低読まれた地域のアイデンティティが何であるかを推測しなければならない。この傾向を反映するスコアをこれらのプロットに割り当てるための簡単なアルゴリズムはありますか?例histoについては、box.net/shared/nbygq2x03uを参照してください。

答えて

1

読み取り深度が0の場合は、基本数のカウントを使用できます。その直線の傾きは、有用な指標(急峻な負の傾き=プラトーからの降下)でもかまいません。

関連する問題