2012-03-13 15 views
2

私はいくつかのSNPを含むvcfファイルを持っています。これらのSNPがSNPを取得したbamファイルの読み込みに均等に分散されているかどうかを確認します。具体的には、読取り位置にSNPの数をプロットする必要があります。 これを実行するためのツールがあるかどうか、または私自身でスクリプトを書く必要があるかどうかは疑問です。もしそうなら、私はそれを行うことができるRのパッケージがありますか(私はRに慣れていますが、perlの経験はあまりありません)。bamファイルからの読み込み位置の抽出

+0

あなたはBIOSTARを尋ねる必要があります。!あなたの助けをhttp://biostar.stackexchange.com/ – Pierre

答えて

2

R&Bioconductorパッケージと機能VariantAnnotation :: readVcfを使用してVCFを読み込み、ゲノム座標を使用してRsamtools :: countBamでbamファイルを照会することができます。 ScanBamParamを使用してください。テストせず、関連するパッケージをインストールするには

## first-time installation 
source("http://bioconductor.org/biocLite.R") 
biocLite(c("VariantAnnotation", "Rsamtools")) 

の線に沿って、その後、

library(VariantAnnotation) # also loads Rsamtools 
snps = readVcf("/some/file.vcf") 
param = ScanBamParam(which=rowData(vcf)) 
reads = countBam("/some/file.bam", param=param) 

これはあなたが興味を持っているどのように多くのSNPに多くを依存する場合があります実装するための最良の方法。I」最新版のBioconductorパッケージを入手すると、リリース前のR-2.15アルファを使用することをお勧めします。これらのパッケージは、大規模なビネット(vignette(package="VariantAnnotation")とBioconductor mailing listに精通して人々だけでなく、通常のヘルプページ?readVcfを持って

+0

おかげで私がしますそれを試してみてください。「読み取り位置のSNPの数」とは、x軸に読み取り(イルミナの場合は100bpを読み取る)のすべての塩基とy軸に累積数このベースポジションで検出されたSNP図2:biomedcentral.com/1471-2164/12/150に示されている例を示します。指定したパッケージでこのようなことを行うことは可能ですか? – UUU

関連する問題