自学内容网 自学内容网

生信软件23 - Samtools和GATK去除PCR重复方法汇总

1. 为什么要去除重复?

在建库测序后, 加上接头的DNA片段进行PCR扩增(由于连接flowcell的效率很低,所以需要对片段进行扩增),连接至flowcell上。PCR扩增会导致一个片段会测序多次,当该片段存在变异位点时,如果不去除重复片段则会增加该位点的测序深度,会被分析为真的变异位点,从而增加假阳性率。

2. 去除PCR重复方法

使用工具:samtoolspicard (已被整合至GATK中,本人使用版本4.2)

GATK TOOLKIT

2.1 利用FLAG值去除重复

-F参数1024表示过滤PCR重复或光学重复reads,具体FLAG含义参考本人以下文章:

生信分析进阶4 - 比对结果的FLAG和CIGAR信息含义与BAM文件指定区域提取

# f提取,F过滤
samtools view -F 1024 - h sample.bam > sample.rmdup.bam

2.2 利用samtools rmdup标记或去除重复

# 去除重复
samtools rmdup sample.bam sample.rmdup.bam 

# 只标记重复,不去除
samtools markdup sample.bam sample.markdup.bam

# 标记重复后去除重复
samtools markdup -r sample.bam sample.markdup.bam 

2.3 利用gatk MarkDuplicate 标记或去除重复

# 标记重复
gatk MarkDuplicate I=sample.sorted.bam O=sample.mkdup.bam M=metrics.txt

# 标记后去除重复
gatk  MarkDuplicate REMOVE_DUPLICATES I=sample.sorted.bam O=sample.mkdup.bam M=metrics.txt 

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。


原文地址:https://blog.csdn.net/LittleComputerRobot/article/details/139853610

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!