欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

介绍seqtk软件用于lncRNA组装的流程

最编程 2024-01-03 12:51:54
...
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

seqtk在生信届被誉为序列处理的瑞士军刀,其出自生信大神李恒之手,李恒是SAMtools、BWA、MAQ等著名生信软件的核心作者。seqtk基于C语言编写的软件,运行速度极快,极大的提高工作效率。seqtk日常序列的处理包括,比如:fq转换为fa,格式化序列,截取序列,随机抽取序列等。

一、软件安装

使用conda安装

conda install -y seqtk

二、seqtk的用法

安装完成以后,可以使用 seqtk 来查看软件的帮助文档。

1. 软件用法:
2. 常用参数:
Command: seq       common transformation of FASTA/Q # FASTA/Q 的转换 
         comp      get the nucleotide composition of FASTA/Q # 获取FASTA/Q的核苷酸组成
         sample    subsample sequences # 获取样本序列 
         subseq    extract subsequences from FASTA/Q # 提取子序列
         fqchk     fastq QC (base/quality summary) # fastq的质控
         mergepe   interleave two PE FASTA/Q files # 交叉合并双端测序的两个FASTA/Q files,
                                                   # 合并后的file第一条序列是第一个fq的第一条,
                                                   # 合并后的file第二条是序列是第二个fq的第一条
         trimfq    trim FASTQ using the Phred algorithm # 用Phred算法对fq修剪

         hety      regional heterozygosity # 区域性杂合
         gc        identify high- or low-GC regions # 识别高低GC含量的区域
         mutfa     point mutate FASTA at specified positions # 在特定位置指出FASTA的突变
         mergefa   merge two FASTA/Q files # 合并两个的FASTA/Q files
         famask    apply a X-coded FASTA to a source FASTA # 将X编码的fa应用到原fa
         dropse    drop unpaired from interleaved PE FASTA/Q # 从交错合并的fa/fq中丢弃不成对的序列
         rename    rename sequence names # 序列重命名
         randbase  choose a random base from hets#从hets中随机选一个碱基
         cutN      cut sequence at long N # 在N长度处切掉序列
         listhet   extract the position of each het # 提取每一个het位置       

三、软件运行命令

1. seq 序列常规转换
将fastq转换成fasta:

seqtk seq -a Sample_R1.fq.gz > Sample_R1.fa

将fastq序列做反向互补分析:

seqtk seq -r Sample_R1.fq.gz > Sample_Revc_R1.fq
2. sample 随机抽样
seqtk sample -s100 Sample_R1.fq.gz 10000

# 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。
3. subseq 提取序列
# 根据输入的bed文件信息,将固定区域的序列提取出来:
seqtk subseq in.fa reg.bed > out.fa

# 根据输入的name list,提取相应名称序列:
seqtk subseq in.fq name.lst > out.fq
4. 截取序列
# 切除reads的前5bp,以及后10bp:
seqtk trimfq -b 5 -e 10 in.fq > out.fq

更多使用方法参考:

https://www.jianshu.com/p/2671198ae625