欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

剖析质粒结构的学习过程 - 更新版

最编程 2024-01-24 17:14:02
...

在很久之前,我写了一篇关于质粒结构学习的文章:
解剖式学习一个质粒结构--做知识的搬运工
半年后阅读量已经达到6700,因此特别担心自己的初级之作没有起到很好的帮助,对读者造成误解,因此在这里增加一个新的版本,希望自己不要误导到别人。

对于没有任何分子克隆背景知识的萌新来说,看懂质粒map就已经是一个挑战了。之前写过一篇初级的质粒结构学习,这次算是回顾并尽量开展和加深。这次使用的例子是pSpCas9(BB)-2A-GFP (PX458)

首先我们在质粒出处尽可能的掌握质粒相关信息

plasmid information
plasmid information 2

除开上面看到的general的信息之外,最重要的还是打开质粒的map查看质粒是否拥有自己所需的原件,在都确定之后,下载质粒图谱,在SnapGene中查看更多详细信息

1. 载体类型

载体按照属性分类,可分为:病毒载体和非病毒载体;

按照受体细胞分类,可分为:原核载体、真核载体和穿梭载体。穿梭载体是指具有两种不同复制起点和选择标记 的质粒

按照质粒功能分类,可分为:过表达、敲减/除、CRISPR等等质粒。

由此分析,pSpCas9(BB)-2A-GFP (PX458)是一个用于CRISPR的质粒,根据sgRNA作用的不同,可以敲减/除。

关于质粒等介绍,我想高师姐之前那篇应该是非常经典了,因此拿出来我再学习一遍,也供大家参考:有些研究生就跟质粒一样,还分严谨型和松弛型呢

2. 载体元件

2.1 ori

除了谷歌ori是什么,我们还可以双击SnapGene图谱上的ori原件查看SnapGene所做的注释。

ori

Ori是质粒的复制起点(也称origin),ori和它所控制的组分一起称为一个复制子。根据上图可知,在这个质粒中有两个origin:f1 ori和ori。f1 ori是f1噬菌体的ori,可以控制ssDNA(单链DNA)的复制,而ori则是质粒在大肠杆菌内的复制起点,在质粒序列上开始以滚环式复制的模式进行DNA复制,使得质粒可以在大肠杆菌中复制。

明确ori类型之后,我们可以再查看一遍质粒图谱。可以看到:

(1)amp promoter+amplicon阅读框可以细菌获得氨苄西林抗性。需要提到的是,细菌的promoter很简单,所以很多基因就是没有promoter也可能在细菌中表达,只要在基因前面有一段类似序列,接着是基因再加一个尾巴terminater。

(2)ori调控整个质粒在大肠杆菌中滚环式复制,使得质粒可以得到大量扩增。

(3)通过查阅相关资料,知道该质粒ori,这是一个松弛型质粒,具体可参考下表(来源于Addgene):

Common Vectors Copy Number+ *ori* Incompatibility Group Control
pUC ~500-700 pMB1 (derivative) A Relaxed
pBR322 ~15-20 pMB1 A Relaxed
pET ~15-20 pBR322 A Relaxed
pGEX ~15-20 pBR322 A Relaxed
pColE1 ~15-20 ColE1 A Relaxed
pR6K ~15-20 R6K* C Stringent
pACYC ~10 p15A B Relaxed
pSC101 ~5 pSC101 C Stringent
pBluescript ~300-500 ColE1 (derivative) and F1** A Relaxed
pGEM ~300-500 pUC and F1** A Relaxed

需要说明的是:

  • 质粒的拷贝数不是固定的,细菌的培养条件如曝气量、温度、培养基体积、抗生素浓度和培养基类型都会影响拷贝数。例如有些ori会受到氯霉素的“哄骗”,从而产生更多的拷贝数。

  • 质粒之间也有相容性的问题,通常来说,相同ori的质粒是不相容的,因为它们会竞争相同的机制,造成不稳定和不可预测的环境。 因此,具有相同ori的质粒不适合共转。

  • 拷贝数不是越多越好,根据实验目的去选择相应的ori,从而维持一个相对合适的拷贝数。换句话说,ori的最佳选择取决于你想要维持多少个质粒拷贝,你打算使用哪个宿主,以及你是否需要考虑你的质粒与一个或多个其他质粒的相容性。如上表中可看到多个质粒的incompatible group是A,则最好共转的质粒里面的ori不要是同一个组别的。

  • 此外,如果质粒带有可产生毒性产物的基因,那么该质粒最好保持在低拷贝状态。

  • 大多数大肠杆菌都可以用于质粒转化,但endA- E. coli是最好的选择。

2.2 U6 promoter

在说U6启动子之前,我们需要明白基因的转录需要以下几个元件的合作:基因表达启动子和RNA聚合酶结合,从而开始转录mRNA,而mRNA转录的起始位点(transcription start site,TSS)通常是一个A或G。对于U6启动子来说,其TSS是G。

U6启动子在SnapGene中的注释为RNA polymerase III promoter for human U6 snRNA,即这是一个RNA聚合酶III的结合位点,用于启动下游转录。在这里U6启动子后面紧接着的是gRNA scaffold。而gRNA scaffold是化脓性链球菌CRISPR/Cas9系统的gRNA骨架,主要作用是和Cas9蛋白binding。在序列中我们可以详细看到,gRNA是位于该骨架的前面,可用BbsI双酶切将gRNA插入到该位置,因此这里则是一个U6+gRNA的阅读框,可用于转录CRISPR/Cas9的gRNA。需要注意的是U6启动子的起始位点是G,因此在设计gRNA的时候要注意G的存在。

特别消息:由于读者 lj_821的提问,我对图片进行了更换并添加了gRNA插入前后的对比图,感谢他的提问,让我们可以关注到更多的信息。在这里人类U6启动子的转录起始位点(TSS)是U6启动子TATA-box后的24nt处的碱基G,需要注意的是,小鼠U6启动子和人的是不一样的。具体经过可以移步评论区查看。再次感谢读者 lj_821的提问。

gRNA未插入时U6启动子后序列情况:

U6 promoter before insertion

gRNA经Bbs1酶切后插入后,U6启动子后序列情况: 我在评论中回复是U6启动子的序列位置也有误,后来还是无法确认具体U6启动子的结束序列到底在哪儿。时间有限,我也暂时不想深究这个问题,请知道的小伙伴慷慨告知,感谢。
U6 promoter after insertion

2.3 CBV promoter

CBV promoter由两个部分组成:CMV enhancer,chicken β-actin promoter。Map中没有指出,但是我们可以认出来。

  • CMV enhancer:CMV enhancer是CMV强启动子的增强子。而CMV启动子来源于人巨细胞病毒(Cytomegalovirus, CMV)的强启动子 ,相当广泛的使用于分子克隆实验中。但有研究表明,CMV启动子容易在快速增殖和干细胞中沉默,从而导致表达缺失,沉默的原因有多种,有人认为是CMV甲基化,而有人则认为是毒性的原因。
  • chicken β-actin promoter:经常被复制粘贴在各种启动子中,例如CBV、CAG等。

U6+gRNA阅读框结束之后,又是一个CBV启动子。你可能会疑惑,为什么前面已经有启动子了,后面还需要插入启动子。这就是每个启动子所适用的情况可能不同。RNA是由RNA聚合酶(RNAP)与DNA结合,从而转录出来的。在原核生物中RNAP就只有一种,而真核生物则有很多种RNAP:如果你想让基因表达,即转录mRNA,则此时需要RNAP II;而如果仅仅是要转录出RNA,例如shRNA,包括我们上面说的gRNA,此时我们需要的是RNAP III。为了保证能得到相应的产物,我们要选择合适的启动子。那么结合SnapGene的注释来看,在pSpCas9(BB)-2A-GFP (PX458)质粒中,U6启动子与RNAP III结合,产生gRNA,CMV启动子与RNAP II结合,诱导下游Cas9蛋白表达。

说到启动子,不得不又把高师姐的启动子文章拿出来分享了,果子学生信的其他两个实验专栏(豆子和高师姐)一直是我的标杆,我就是看着前辈的样子,然后模仿。关于启动子的知识介绍还有如何查找启动子,请看以下两篇文章:

科学研究的星辰大海,从启动子开始。

寻找启动子的三种方法。

2.4 Kozak sequence

M Kozak于1987年发表的发现,序列为(GCC) GCCA/GCCATGG,并解析其功能为: 脊椎动物通用的强启动翻译序列。因此得名Kozak sequence,Kozak sequence在质粒中作用是启动质粒插入基因在脊椎动物中的表达,而且如果一个不够用,那就两个,甚至多个。原文摘要第一句如下:

5'-Noncoding sequences have been compiled from 699 vertebrate mRNAs. (GCC) GCCA/GCCATGG emerges as the consensus sequence for initiation of translation in vertebrates

2.5 3X FLAG

顾名思义,其实这是一个标签蛋白(短肽),3X FLAG是标签蛋白里面比较优秀和特异的。标签蛋白的存在,提供了蛋白分离和定位的靶点,毕竟不是所有蛋白的抗体都有得买或者好用,但FLAG标签抗体已经相对成熟和特异。

2.6 SV40 NLS

SV40 NLS在SnapGene中的注释是:nuclear localization signal of SV40 (simian virus 40) large T antigen,即SV40大T抗原的核定位信号。随着了解的越多,我越来越觉得质粒就像一个小小AI,给它加上不同的功能元件,它就能行使不同功能,而这个小小AI的代码则是DNA。我们可以把不同物种的基因序列组装到一起,最后创造出一个新的产物,非常有意思。由下面对SV40 T的介绍我们可知,该抗原可进入细胞核中与p53结合,从而使得p53缺失。而SV40 T之所以可以进入细胞核中,是因为SV40 NLS的存在。因此我们将SV40 NLS序列单独摘出,放在Cas9序列的前面,则该序列将会引导Cas9进入细胞核中,起到基因剪刀的作用

SV40 T antigen SV40大T抗原猿猴空泡病毒40 TAg)是六聚体蛋白,它是衍生自SV40病毒的显性作用癌蛋白。TAg能够诱导多种细胞类型的恶性转化。TAg的转化活性很大程度上归因于它对视网膜母细胞瘤[pRb和p53肿瘤抑制蛋白的干扰。因此,SV40 T结合p53并导致细胞周期控制失调,从而使得细胞转化效率提高。

2.7 Cas9 and NLS

Cas9则不需要再多解释,我们在上文中已知Cas9前面已有一个SV40 NLS用于核定位引导,但在Cas9序列的末尾,仍有一个NLS信号是为什么呢?就像我们前面提到的Kozak sequence一样,如果一个序列信号不够,那就来两个,甚至多个。这个现象在质粒中非常常见,就比如FLAG还有3X FLAG,那么NLS信号也是一样的,在蛋白序列的头尾都加上NLS信号,有利于蛋白的核定位转导

以上串联起来则是:U6启动子引导了sgRNA的表达,紧接着CBV启动子联合Kozak序列,使得Cas9在脊椎动物中表达,sgRNA和Cas9在同一个质粒中被转录,从而完整了CRISPR/Cas9系统,同时SV40 NLS的存在会将sgRNA-Cas9复合物传递到细胞核中,由于Cas9蛋白很大,Cas9蛋白后面再次连接了一个NLS信号,以确保sgRNA-Cas9的和定位,基因编辑得以发生。

2.8 T2A-EGFP

T2A可将Cas9蛋白的表达和EGFP断开。EGFP可用于指示质粒转染的成功。2A是一个断裂信号,但断裂并不是百分之百的,P2A是2A家族中目前断裂效率比较好的。具体可参考文献:Systematic comparison of 2A peptides for cloning multi-genes in a polycistronic vector

2.9 bGH poly(A) signal

转录终止信号,有时候担心信号不够强,还可以叠加几个polyA,如下:

3x SV40 poly A

虽然启动子强度作为基因表达水平的决定因素,但终止子在RNA加工过程中也发挥着重要作用,有助于RNA半衰期的变化,并最终导致基因表达。在原核生物中,Poly A尾可促进RNA讲解,而在真核生物中,Poly A尾则可延长RNA的半衰期。

2.10 AAV ITR

2型腺相关病毒的ITR,质粒骨架残留吧,毕竟ITR要两个才能其作用呢(个人是这样认为的)

一通质粒结构学习下来,感觉自己又长知识了,但还是远远不够,大家一起加油吧。

推荐阅读