欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

回顾2015年的HPV病毒基因研究:205种类型的发现,通过Python抓取获取了179个约8KB碱基序列。基于GeneBank或类似ID的批量核酸序列下载实用脚本" 该脚本说明: - 介绍了一个在2015年针对HPV病毒基因进行的研究,其中已确认有205种类型的基因,并通过Python编程从GeneBank获取了179个大约8KB的DNA序列片段。 - 提供了一份简单易用的Python脚本,用户只需提供一行一个含有相关ID(如GeneBank ID)的文本文件作为输入。 - 脚本功能包括随机暂停以避免过于频繁的请求,适用于快速、大批量地下载指定ID下的核酸序列信息。 - 还提及了关于HBV病毒提取方法的相关文献背景,同时也揭示了当年作者使用Python编写此类工具的经历。

最编程 2024-02-17 20:04:48
...
library(ape)a=read.table("hpv_all.ID") #输入文件是一行一个ID号即可for (i in 1:nrow(a)){tmp=read.GenBank(a[i,1],seq.names = a[1,1],as.character = T)write.dna(tmp,"tmp.fa",format="fasta", append=T,colsep = "")}

然后用muscle做比对,比对过程相对比较简单,大家感兴趣可以参照我之前的几篇笔记。

  • Muscle进行多序列比对 http://www.bio-info-trainee.com/?p=659
  • Figtree的把进化树文件可视化 http://www.bio-info-trainee.com/?p=660
  • 用phyML对多重比对phy文件来构建进化树 http://www.bio-info-trainee.com/?p=626
muscle -in mouse_J.pro -out mouse_J.pro.amuscle -maketree -in mouse_J.pro.a -out mouse_J.phy

貌似时间有点长呀,最后还莫名其妙的挂掉了,可能是我的这个测试服务器配置有点低。

(非常经典的 segmentation fault )

进化树如下所示: