剖析质粒结构的学习过程 - 更新版

最编程 2024-01-24 17:14:02

...

在很久之前，我写了一篇关于质粒结构学习的文章：
解剖式学习一个质粒结构--做知识的搬运工
半年后阅读量已经达到6700，因此特别担心自己的初级之作没有起到很好的帮助，对读者造成误解，因此在这里增加一个新的版本，希望自己不要误导到别人。

对于没有任何分子克隆背景知识的萌新来说，看懂质粒map就已经是一个挑战了。之前写过一篇初级的质粒结构学习，这次算是回顾并尽量开展和加深。这次使用的例子是pSpCas9(BB)-2A-GFP (PX458)

首先我们在质粒出处尽可能的掌握质粒相关信息

plasmid information

plasmid information 2

除开上面看到的general的信息之外，最重要的还是打开质粒的map查看质粒是否拥有自己所需的原件，在都确定之后，下载质粒图谱，在SnapGene中查看更多详细信息。

1. 载体类型

载体按照属性分类，可分为：病毒载体和非病毒载体；

按照受体细胞分类，可分为：原核载体、真核载体和穿梭载体。穿梭载体是指具有两种不同复制起点和选择标记 的质粒

按照质粒功能分类，可分为：过表达、敲减/除、CRISPR等等质粒。

由此分析，pSpCas9(BB)-2A-GFP (PX458)是一个用于CRISPR的质粒，根据sgRNA作用的不同，可以敲减/除。

关于质粒等介绍，我想高师姐之前那篇应该是非常经典了，因此拿出来我再学习一遍，也供大家参考：有些研究生就跟质粒一样，还分严谨型和松弛型呢

2. 载体元件

2.1 ori

除了谷歌ori是什么，我们还可以双击SnapGene图谱上的ori原件查看SnapGene所做的注释。

ori

Ori是质粒的复制起点（也称origin），ori和它所控制的组分一起称为一个复制子。根据上图可知，在这个质粒中有两个origin：f1 ori和ori。f1 ori是f1噬菌体的ori，可以控制ssDNA（单链DNA）的复制，而ori则是质粒在大肠杆菌内的复制起点，在质粒序列上开始以滚环式复制的模式进行DNA复制，使得质粒可以在大肠杆菌中复制。

明确ori类型之后，我们可以再查看一遍质粒图谱。可以看到：

（1）amp promoter+amplicon阅读框可以细菌获得氨苄西林抗性。需要提到的是，细菌的promoter很简单，所以很多基因就是没有promoter也可能在细菌中表达，只要在基因前面有一段类似序列，接着是基因再加一个尾巴terminater。

（2）ori调控整个质粒在大肠杆菌中滚环式复制，使得质粒可以得到大量扩增。

（3）通过查阅相关资料，知道该质粒ori，这是一个松弛型质粒，具体可参考下表（来源于Addgene）：

Common Vectors	Copy Number+	ori	Incompatibility Group	Control
pUC	~500-700	pMB1 (derivative)	A	Relaxed
pBR322	~15-20	pMB1	A	Relaxed
pET	~15-20	pBR322	A	Relaxed
pGEX	~15-20	pBR322	A	Relaxed
pColE1	~15-20	ColE1	A	Relaxed
pR6K	~15-20	R6K*	C	Stringent
pACYC	~10	p15A	B	Relaxed
pSC101	~5	pSC101	C	Stringent
pBluescript	~300-500	ColE1 (derivative) and F1**	A	Relaxed
pGEM	~300-500	pUC and F1**	A	Relaxed

需要说明的是：

质粒的拷贝数不是固定的，细菌的培养条件如曝气量、温度、培养基体积、抗生素浓度和培养基类型都会影响拷贝数。例如有些ori会受到氯霉素的“哄骗”，从而产生更多的拷贝数。
质粒之间也有相容性的问题，通常来说，相同ori的质粒是不相容的，因为它们会竞争相同的机制，造成不稳定和不可预测的环境。因此，具有相同ori的质粒不适合共转。
拷贝数不是越多越好，根据实验目的去选择相应的ori，从而维持一个相对合适的拷贝数。换句话说，ori的最佳选择取决于你想要维持多少个质粒拷贝，你打算使用哪个宿主，以及你是否需要考虑你的质粒与一个或多个其他质粒的相容性。如上表中可看到多个质粒的incompatible group是A，则最好共转的质粒里面的ori不要是同一个组别的。
此外，如果质粒带有可产生毒性产物的基因，那么该质粒最好保持在低拷贝状态。
大多数大肠杆菌都可以用于质粒转化，但endA- E. coli是最好的选择。

2.2 U6 promoter

在说U6启动子之前，我们需要明白基因的转录需要以下几个元件的合作：基因表达启动子和RNA聚合酶结合，从而开始转录mRNA，而mRNA转录的起始位点（transcription start site，TSS）通常是一个A或G。对于U6启动子来说，其TSS是G。

U6启动子在SnapGene中的注释为RNA polymerase III promoter for human U6 snRNA，即这是一个RNA聚合酶III的结合位点，用于启动下游转录。在这里U6启动子后面紧接着的是gRNA scaffold。而gRNA scaffold是化脓性链球菌CRISPR/Cas9系统的gRNA骨架，主要作用是和Cas9蛋白binding。在序列中我们可以详细看到，gRNA是位于该骨架的前面，可用BbsI双酶切将gRNA插入到该位置，因此这里则是一个U6+gRNA的阅读框，可用于转录CRISPR/Cas9的gRNA。需要注意的是U6启动子的起始位点是G，因此在设计gRNA的时候要注意G的存在。

特别消息：由于读者 lj_821的提问，我对图片进行了更换并添加了gRNA插入前后的对比图，感谢他的提问，让我们可以关注到更多的信息。在这里人类U6启动子的转录起始位点（TSS）是U6启动子TATA-box后的24nt处的碱基G，需要注意的是，小鼠U6启动子和人的是不一样的。具体经过可以移步评论区查看。再次感谢读者 lj_821的提问。

gRNA未插入时U6启动子后序列情况：

U6 promoter before insertion

gRNA经Bbs1酶切后插入后，U6启动子后序列情况： 我在评论中回复是U6启动子的序列位置也有误，后来还是无法确认具体U6启动子的结束序列到底在哪儿。时间有限，我也暂时不想深究这个问题，请知道的小伙伴慷慨告知，感谢。

U6 promoter after insertion

2.3 CBV promoter

CBV promoter由两个部分组成：CMV enhancer，chicken β-actin promoter。Map中没有指出，但是我们可以认出来。

CMV enhancer：CMV enhancer是CMV强启动子的增强子。而CMV启动子来源于人巨细胞病毒（Cytomegalovirus, CMV）的强启动子，相当广泛的使用于分子克隆实验中。但有研究表明，CMV启动子容易在快速增殖和干细胞中沉默，从而导致表达缺失，沉默的原因有多种，有人认为是CMV甲基化，而有人则认为是毒性的原因。
chicken β-actin promoter：经常被复制粘贴在各种启动子中，例如CBV、CAG等。

U6+gRNA阅读框结束之后，又是一个CBV启动子。你可能会疑惑，为什么前面已经有启动子了，后面还需要插入启动子。这就是每个启动子所适用的情况可能不同。RNA是由RNA聚合酶（RNAP）与DNA结合，从而转录出来的。在原核生物中RNAP就只有一种，而真核生物则有很多种RNAP：如果你想让基因表达，即转录mRNA，则此时需要RNAP II；而如果仅仅是要转录出RNA，例如shRNA，包括我们上面说的gRNA，此时我们需要的是RNAP III。为了保证能得到相应的产物，我们要选择合适的启动子。那么结合SnapGene的注释来看，在pSpCas9(BB)-2A-GFP (PX458)质粒中，U6启动子与RNAP III结合，产生gRNA，CMV启动子与RNAP II结合，诱导下游Cas9蛋白表达。

说到启动子，不得不又把高师姐的启动子文章拿出来分享了，果子学生信的其他两个实验专栏（豆子和高师姐）一直是我的标杆，我就是看着前辈的样子，然后模仿。关于启动子的知识介绍还有如何查找启动子，请看以下两篇文章：

科学研究的星辰大海，从启动子开始。

寻找启动子的三种方法。

2.4 Kozak sequence

M Kozak于1987年发表的发现，序列为(GCC) GCCA/GCCATGG，并解析其功能为: 脊椎动物通用的强启动翻译序列。因此得名Kozak sequence，Kozak sequence在质粒中作用是启动质粒插入基因在脊椎动物中的表达，而且如果一个不够用，那就两个，甚至多个。原文摘要第一句如下：

5'-Noncoding sequences have been compiled from 699 vertebrate mRNAs. (GCC) GCCA/GCCATGG emerges as the consensus sequence for initiation of translation in vertebrates

2.5 3X FLAG

顾名思义，其实这是一个标签蛋白（短肽），3X FLAG是标签蛋白里面比较优秀和特异的。标签蛋白的存在，提供了蛋白分离和定位的靶点，毕竟不是所有蛋白的抗体都有得买或者好用，但FLAG标签抗体已经相对成熟和特异。

2.6 SV40 NLS

SV40 NLS在SnapGene中的注释是：nuclear localization signal of SV40 (simian virus 40) large T antigen，即SV40大T抗原的核定位信号。随着了解的越多，我越来越觉得质粒就像一个小小AI，给它加上不同的功能元件，它就能行使不同功能，而这个小小AI的代码则是DNA。我们可以把不同物种的基因序列组装到一起，最后创造出一个新的产物，非常有意思。由下面对SV40 T的介绍我们可知，该抗原可进入细胞核中与p53结合，从而使得p53缺失。而SV40 T之所以可以进入细胞核中，是因为SV40 NLS的存在。因此我们将SV40 NLS序列单独摘出，放在Cas9序列的前面，则该序列将会引导Cas9进入细胞核中，起到基因剪刀的作用。

SV40 T antigen SV40大T抗原（猿猴空泡病毒40 TAg）是六聚体蛋白，它是衍生自SV40病毒的显性作用癌蛋白。TAg能够诱导多种细胞类型的恶性转化。TAg的转化活性很大程度上归因于它对视网膜母细胞瘤[pRb和p53肿瘤抑制蛋白的干扰。因此，SV40 T结合p53并导致细胞周期控制失调，从而使得细胞转化效率提高。

2.7 Cas9 and NLS

Cas9则不需要再多解释，我们在上文中已知Cas9前面已有一个SV40 NLS用于核定位引导，但在Cas9序列的末尾，仍有一个NLS信号是为什么呢？就像我们前面提到的Kozak sequence一样，如果一个序列信号不够，那就来两个，甚至多个。这个现象在质粒中非常常见，就比如FLAG还有3X FLAG，那么NLS信号也是一样的，在蛋白序列的头尾都加上NLS信号，有利于蛋白的核定位转导。

以上串联起来则是：U6启动子引导了sgRNA的表达，紧接着CBV启动子联合Kozak序列，使得Cas9在脊椎动物中表达，sgRNA和Cas9在同一个质粒中被转录，从而完整了CRISPR/Cas9系统，同时SV40 NLS的存在会将sgRNA-Cas9复合物传递到细胞核中，由于Cas9蛋白很大，Cas9蛋白后面再次连接了一个NLS信号，以确保sgRNA-Cas9的和定位，基因编辑得以发生。

2.8 T2A-EGFP

T2A可将Cas9蛋白的表达和EGFP断开。EGFP可用于指示质粒转染的成功。2A是一个断裂信号，但断裂并不是百分之百的，P2A是2A家族中目前断裂效率比较好的。具体可参考文献：Systematic comparison of 2A peptides for cloning multi-genes in a polycistronic vector

2.9 bGH poly(A) signal

转录终止信号，有时候担心信号不够强，还可以叠加几个polyA，如下：

3x SV40 poly A

虽然启动子强度作为基因表达水平的决定因素，但终止子在RNA加工过程中也发挥着重要作用，有助于RNA半衰期的变化，并最终导致基因表达。在原核生物中，Poly A尾可促进RNA讲解，而在真核生物中，Poly A尾则可延长RNA的半衰期。

2.10 AAV ITR

2型腺相关病毒的ITR，质粒骨架残留吧，毕竟ITR要两个才能其作用呢（个人是这样认为的）

一通质粒结构学习下来，感觉自己又长知识了，但还是远远不够，大家一起加油吧。

上一篇：全面解析叶绿体基因组比较分析：必备软件与ggplot绘图脚本

下一篇：搞定安卓应用热修复：原理解析与解决方案全解——终极版总结

剖析质粒结构的学习过程 - 更新版

1. 载体类型

2. 载体元件

2.1 ori

2.2 U6 promoter

2.3 CBV promoter

2.4 Kozak sequence

2.5 3X FLAG

2.6 SV40 NLS

2.7 Cas9 and NLS

2.8 T2A-EGFP

2.9 bGH poly(A) signal

2.10 AAV ITR

实战分享：阿里巴巴算法大牛深入剖析易用型强化学习库EasyRL的入门与实践全过程

第二章：深入理解Linux编程 - 进程工作原理：剖析进程定义与特性、状态转换、关键数据结构、从创建到结束的过程、睡眠与唤醒机制、暂停与重启操作，以及处理器调度的核心概念

剖析质粒结构的学习过程 - 更新版