欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

3D DNA结构与Juicer技术提升:从单倍型基因组进阶到染色体层面解析

最编程 2024-07-23 14:14:45
...

数据准备:单倍型基因组(hap1.p_ctg.fa和hap2.p_ctg.fa)和HIC数据

软件安装:3D-DNA、Juicer、BWA、Juicebox(win或mac安装)

3D-DNA 挂载染色体 - 简书 (jianshu.com)

https://www.jianshu.com/p/62ed25b70194

Juicer: 辅助基因组组装 - 简书 (jianshu.com)

https://www.jianshu.com/p/a889e2f7cef2

3.大致流程

Juicer分析Hi-C数据,3D-DNA进行scaffolding,使用Juicebox对组装结果进行手工纠正,最终得到准染色体水平的基因组。

4.软件安装:

Juicer安装:juicer需要一个固定的目录结构,新建一个文件夹命名为juicer,在此文件夹中安装juicer;然后新建四个文件夹,分别为:

references

work

scripts

restriction_sites

references目录用于存放参考基因组相关文件work文件夹新建fastq子文件夹并存放HiC二代双端测序结果,read_R1_fastq.gz,      read_R2_fastq.gz(注意fastq如果是fq.gz则运行失败)scripts 用于存放软件运行所需的脚本restriction_sites用于存放参考基因组酶切图谱

juicer安装相对简单,按照下面指令即可:

mkdir -p ~/opt/biosoft/juicer

cd ~/opt/biosoft/juicer

git clone https://github.com/theaidenlab/juicer.git (VPN)

cd juicer

ln -s CPU scriptscd scripts/common

wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar

ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

然后检查是否有帮助信息输出(成功)(路径取决于软件juicer.sh所在目录)/public/home/bsun/opt/biosoft/juicer/scripts/juicer/CPU/juicer.sh -h

3D-DNA安装

cd ~/opt/biosoft

git clone https://github.com/theaidenlab/3d-dna.git

测试是否成功/public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline.sh

Juicebox

安装在windows或mac系统上

BWA(conda安装即可)

5.运行文件准备

准备juicer所需文件:即它的4个固定文件夹所需的的文件

第一步:bwa为基因组建索引--放入references中

bwa index hap1.p_ctg.fa.fa

第二步: 根据基因组构建创建可能的酶切位点文件(必须提交到集群运行,否则killed)酶的选择参考自己的HIC数据报告;本人选择DpnII--放restriction_sites中

bsub -J bwa -n 20 -R span[hosts=1] -o %J.out -e %J.err -q smp "python /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6/misc/generate_site_positions.py DpnII hap1 hap1.p_ctg.fa"

第三步: 根据第二步的结果(hap1_DpnII.txt)提取每条contig的长度(不用提交到集群运行)--放入restriction_sites中

awk 'BEGIN{OFS="\t"}{print $1, $NF}' hap1_DpnII.txt > hap1.chrom.sizes

运行Juicer

需要先调用bwa,否则报错需要参数

bash juicer.sh -d /juicer/work2 -D juicer-1.6 -g loach -z /juicer/references/hap2.fasta -y /juicer/restriction_sites/hap2_DpnII.txt -p /juicer/restriction_sites/hap2.chrom.sizes -s DpnII -t 20

参数含义-d fastq储存位置-D juicer script (cpu)的路径-g 基因组名称-z contig路径-y 酶切位点路径-p 染色体大小路径-s 酶切位点-t 线程数

本人的代码,推荐使用绝对路径;可按照一下代码根据自己的路径修改即可bsub -J juicer -n 30 -R span[hosts=1] -o %J.out -e %J.err -q normal "bash /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6/CPU/juicer.sh -d /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/work -D /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6 -g loach -z /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/references/hap1.p_ctg.fa -y /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/restriction_sites/hap1_DpnII.txt -p /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/restriction_sites/hap1.sizes -s DpnII -t 30"

输出的结果文件都在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。3D-DNA&Juicer升级单倍型基因组至染色体水平

运行3d-dna

本步必须在下面juicer的文件夹下跑,否则出现下方报错

解决方法1.基因组文件必须以fasta命名。

2.将juicer跑好的work文件和fasta文件分别移动到juicer目录下和references文件中记得做好标记,

3.然后只需改动fasta文件和work文件名就可以使用下面的代码。运行3ddna,推荐绝对路径

bsub -J3d-1-n30-R span[hosts=1] -o %J.out -e %J.err -qnormal "bash /public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline.sh /public/home/bsun/opt/biosoft/juicer/references/hap2.fasta /public/home/bsun/opt/biosoft/juicer/work2/aligned/merged_nodups.txt"

#Juicebox手动调整

将下图中的3ddna输出的文件导出至win或mac桌面,用juicebox人工调整

上述结果推荐都尝试一下看看那个版本效果好,最终选择一个修正

Juicebox 教程(中文字幕)_哔哩哔哩_bilibili

https://www.bilibili.com/video/BV1xD4y1m712/?vd_source=4b4d7664f83a31f63f4c075e8915a189

【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?- 生物信息与育种 - 博客园 (cnblogs.com)

https://www.cnblogs.com/miyuanbiotech/p/14590564.html

值得注意:人工修正不得马虎;一定多多询问,一步一步进行;不得随意删除片段;记得保存;

再次运行3d-dna

将人工修正后导出的文件(.review.assembly结尾)作为3ddna的二次输入文件bsub -J 3ddna2 -n 20 -R span[hosts=1] -o %J.out -e %J.err -q normal "bash /public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline-post-review.sh -r /public/home/bsun/opt/biosoft/juicer/3ddna-hap2/hap2.0.review.assembly /public/home/bsun/opt/biosoft/juicer/references/hap2.fasta /public/home/bsun/opt/biosoft/juicer/work2/aligned/merged_nodups.txt"

最终得到染色体水平的单倍型基因组

后续还需要进行单倍型之间共线性分析并结合HIC互作信息再次纠正。。。