欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

fastp 数据过滤和质量控制

最编程 2024-03-23 09:03:09
...
二、常见用法
过滤
1)质量过滤 : -q/--qualified_quality_pherd 高于此值才算数,默认15;-u/--unquantified_percent_limit允许unqualified的碱基百分比,默认40%
2)长度过滤:长度过滤默认开启,可通过-L取消,-l/--length_required定义需要的最短长度,默认为15;--length_limit定义接受的最长长度,默认为0表示没有限制
3)低复杂度过滤:默认不开启,可通过-y开启,通过-Y定义过滤条件
Adapter
1)SE数据:-a
2)PE数据:--adapter_sequence指定read1的adapter序列 --adapter_sequence_r2指定read2的adapter序列;也可以--detect_adapter_for_pe开启illumina系列adapter自动检测功能
##per read cutting by quality score
目前数据illumina测序质量较好,该功能一般用不上,可参考https://github.com/OpenGene/fastp#get-fastp
global trimming
从序列开头或结尾去除一定数量的碱基:
-f/--trim_front1表示从read1的开头去除,-t/--trim_tail1从read1的尾部去除;-F -T则分别表示从read2去除
-b/--max_len1 表示read1经trim之后最长的长度 -B则指read2的相应情况
polyX trimming
-x/--trim_poly_x实现polyX的去除,默认长度为10
--poly_x_min_len指定polyX的长度,默认为10
unique molecular identifier(UMI) processing
常用于duplication的消除和错误纠正,常用于如线粒体DNA等深度测序,普遍用于illumina平台,可分为index和read两部分,使用-U/--umi来开启此功能,--umi_loc指定UMI的位置如index1 index2 read1 read2,若UMI指定在read上,则--umi_len用于指定UMI的长度

推荐阅读