seqtk 提取读数
最编程
2024-04-10 13:31:12
...
做测序数据分析经常要从原始的raw reads里面抽取部分做分析。
比如说不同样本之间的比较,不同平台之间的比较,以及不同的产品之间的比较等等。只有相同的起始reads数进行后续的分析,这样的比较才是一个合理且公正的比较。那么怎么随机抽取一定的数目的reads呢?
今天给大家安利一个小工具,叫seqtk
https://github.com/lh3/seqtk
比如说我们要从pair end的原始fastq文件中抽取10000条reads,可以用下面的命令。其中-s是seed,控制随机抽取,但是要注意在抽R1和R2的时候,一定要用相同的seed,这样才能保证抽出来的R1和R2仍然是配对的,否则有可能会错位。后面10000表示抽取的reads数目。
seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq
除了可以指定抽取的reads条数以外,还可以指定抽取的百分比,比如下面的命令就是抽取原始reads的一半。
seqtk sample -s100 read1.fq 0.5 > sub1.fq
seqtk sample -s100 read2.fq 0.5 > sub2.fq
这里还有一个小技巧,如果原始文件是压缩文件,也可以直接使用seqtk进行抽取,不需要先解压。不过抽出来的reads需要使用管道,进行压缩。这样才能保证抽完还是压缩文件。
seqtk sample -s100 read1.fq.gz 10000 | gzip > sub1.fq.gz
seqtk sample -s100 read2.fq.gz 10000 | gzip > sub2.fq.gz
上一篇: 你正在偷看的小电源正被黑客监控着。
下一篇: Vue 项目引入字体(思源黑体)
推荐阅读
-
【论文浅尝】用于生成式信息提取的大型语言模型:调查
-
Word 竟然可以提取身份证号码中的出生日期
-
如何在 WPS 中根据身份证号码提取出生日期和计算年龄,并自动更新年龄列
-
[FFmpeg] ffmpeg 命令行参数 ⑤ ( 使用 ffmpeg 命令提取音频/视频数据 | 保留封装格式 | 保留编码格式 | 重新编码 )
-
FFmpeg 命令行参数 ⑦ ( 使用 FFmpeg 提取 PCM 音频数据 | PCM 音频格式 | 提取 PCM 音频格式常用参数 | 查询文档方法 )
-
网友分享工具:蜻蜓 FM 音频提取 qta 到 mp3 格式
-
带可执行演示的 wav2midi 音乐旋律提取算法
-
简单提取 iOS13 ipsw 固件的内置壁纸(或文件)--没有看到官方网站,点击第一个下载即可!
-
蚂蚁金服集团与浙江大学联合发布开源大型模型知识提取框架 OneKE
-
OpenSPG v0.0.3 发布,全新大模型统一知识提取与图谱可视化