介绍seqtk软件用于lncRNA组装的流程

最编程 2024-01-03 12:51:54

...

咱们《生信技能树》的B站有一个lncRNA数据分析实战，缺乏配套笔记，所以我们安排了100个lncRNA组装案例文献分享，以及这个流程会用到的100个软件的实战笔记教程！

下面是100个lncRNA组装流程的软件的笔记教程

seqtk在生信届被誉为序列处理的瑞士军刀，其出自生信大神李恒之手，李恒是SAMtools、BWA、MAQ等著名生信软件的核心作者。seqtk基于C语言编写的软件，运行速度极快，极大的提高工作效率。seqtk日常序列的处理包括，比如：fq转换为fa，格式化序列，截取序列，随机抽取序列等。

一、软件安装

使用conda安装

conda install -y seqtk

二、seqtk的用法

安装完成以后，可以使用 seqtk 来查看软件的帮助文档。

1. 软件用法：

2. 常用参数：

Command: seq       common transformation of FASTA/Q # FASTA/Q 的转换 
         comp      get the nucleotide composition of FASTA/Q # 获取FASTA/Q的核苷酸组成
         sample    subsample sequences # 获取样本序列 
         subseq    extract subsequences from FASTA/Q # 提取子序列
         fqchk     fastq QC (base/quality summary) # fastq的质控
         mergepe   interleave two PE FASTA/Q files # 交叉合并双端测序的两个FASTA/Q files，
                                                   # 合并后的file第一条序列是第一个fq的第一条，
                                                   # 合并后的file第二条是序列是第二个fq的第一条
         trimfq    trim FASTQ using the Phred algorithm # 用Phred算法对fq修剪

         hety      regional heterozygosity # 区域性杂合
         gc        identify high- or low-GC regions # 识别高低GC含量的区域
         mutfa     point mutate FASTA at specified positions # 在特定位置指出FASTA的突变
         mergefa   merge two FASTA/Q files # 合并两个的FASTA/Q files
         famask    apply a X-coded FASTA to a source FASTA # 将X编码的fa应用到原fa
         dropse    drop unpaired from interleaved PE FASTA/Q # 从交错合并的fa/fq中丢弃不成对的序列
         rename    rename sequence names # 序列重命名
         randbase  choose a random base from hets#从hets中随机选一个碱基
         cutN      cut sequence at long N # 在N长度处切掉序列
         listhet   extract the position of each het # 提取每一个het位置

三、软件运行命令

1. seq 序列常规转换

将fastq转换成fasta：

seqtk seq -a Sample_R1.fq.gz > Sample_R1.fa

将fastq序列做反向互补分析：

seqtk seq -r Sample_R1.fq.gz > Sample_Revc_R1.fq

2. sample 随机抽样

seqtk sample -s100 Sample_R1.fq.gz 10000

# 可直接对压缩文件进行序列随机提取，在提取R1和R2两个文件的时候，需要-s值一致，才能使提取的序列id号对应。

3. subseq 提取序列

# 根据输入的bed文件信息，将固定区域的序列提取出来：
seqtk subseq in.fa reg.bed > out.fa

# 根据输入的name list，提取相应名称序列：
seqtk subseq in.fq name.lst > out.fq

4. 截取序列

# 切除reads的前5bp，以及后10bp：
seqtk trimfq -b 5 -e 10 in.fq > out.fq

更多使用方法参考：

https://www.jianshu.com/p/2671198ae625

上一篇：四种计算fasta序列长度的方法

下一篇：几种方法用于统计测序数据中reads数和碱基数

介绍seqtk软件用于lncRNA组装的流程

一、软件安装

二、seqtk的用法

1. 软件用法：

2. 常用参数：

三、软件运行命令

1. seq 序列常规转换

2. sample 随机抽样

3. subseq 提取序列

4. 截取序列

介绍用于 lncRNA 组装过程的软件 - transeq

介绍seqtk软件用于lncRNA组装的流程