欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

VCF 文件质量控制 -- VariantFiltration

最编程 2024-04-04 17:44:18
...

在获得SNP和INDEL后,需要对raw data进行质控,剔除假阳性的标记,GATK官方推荐的方法是VQSR,原理是利用已知的数据库和测序数据进行比较,评估位点的可信度。

官方说明(GATK4.2.1.0版本)
https://gatk.broadinstitute.org/hc/en-us/articles/4404604873243-VariantRecalibrator

但VQSR只适用于模式作物,需要提供Hapmap、OMNI,1000G和dbsnp等这些国际性项目的数据。不能提供这些数据时,只能通过硬过滤进行筛选,即人为设定一些指标的标准,筛选掉不满足要求的位点。

硬筛选官方说明书:
https://gatk.broadinstitute.org/hc/en-us/articles/4404604763547-VariantFiltration

硬筛选指标:
https://gatk.broadinstitute.org/hc/en-us/articles/360035890471-Hard-filtering-germline-short-variants

$ gatk VariantFiltration \
   -R ~/ref/Mparg_v2.0.fa \
   -V LPF1_MP_raw_snps.vcf \
   -O LPF1_MP_snps.vcf \
   --filter-name "QUAL30" --filter-expression "QUAL < 30.0" \
   --filter-name "FS60" --filter-expression "FS > 60.0" \
   --filter-name "QD2" --filter-expression "QD < 2.0" \
   --filter-name "SOR3" --filter-expression "SOR > 3.0" \
   --filter-name "MQ40" --filter-expression "MQ < 40.0" \
   --filter-name "ReadPosRankSum-8" --filter-expression "ReadPosRankSum < -8.0" \
   --filter-name "MQRankSum-12.5" --filter-expression "MQRankSum < -12.5"