构建基因调控网络的新方法:深度学习模型探索
编译| 姜晶 审稿| 杨喜喜
本文将介绍由北京大学马剑竹课题组,清华大学交叉信息研究院曾坚阳课题组联合索尔克生物研究所,加利福尼亚大学,上海交通大学于7月22日发表在Nature Computational Science的研究成果:本文作者提出了一个深度生成模型DeepSEM,它可以推断基因调控网络(GRNs)和单细胞RNA测序数据的生物学表示。DeepSEM与最先进的方法相比,在各种单细胞计算任务上取得了优越的性能。此外,DeepSEM在小鼠皮层数据上进行验证,进一步证明了该模型的准确性和效率。因此,DeepSEM是分析细胞的scRNA-seq数据和推断GRNs的强大工具。
1
简介
单细胞测序技术的快速发展为生物学家研究细胞状态提供了前所未有的机会。而在批量测序数据中未发现的实验噪声会显着降低下游生物信息学分析结果的准确性。为了解决这个问题,人们利用深度学习通过模拟基因之间复杂的相互作用模式来过滤单细胞转录组数据中的噪声。先前的基于深度学习的方法虽然能更清晰的揭示细胞异质性,捕捉转录组学相似性和细胞之间的差异,但很难评估基因调控网络(GRN)结构或数据其他内部结构。而许多计算模型是将GRN推断和单细胞数据分析模型进行结合。然而,通常需要设计复杂的实验,并且还可能引入额外的噪声。此外,基于单细胞RNA测序(scRNA-seq)数据的方法也有明显的局限性。
针对上述问题,本文作者提出基于β-VAE框架的DeepSEM模型,可以联合嵌入基因表达数据,同时构建GRNs反映单细胞内基因相互作用的内部结构,而无需依赖任何额外信息,例如TF 结合motif或单细胞ATAC测序(scATAC-seq)数据。作者在多个基准数据集上评估DeepSEM在各种单细胞任务中的性能都获得了不错的结果,并且由于VAE模型本身可以对潜在向量空间进行扰动来生成新的数据,因此在训练样本数据有限的情况下,仍能保证细胞类型分类的准确性。
2
结果
DeepSEM框架概述
给定scRNA-seq数据集作为输入,DeepSEM通过使用beta-VAE框架生成SEM来联合建模GRN和转录组(图 1)。DeepSEM有两个神经网络层,命名为GRN层和逆GRN层,以明确地对GRN结构进行建模。与传统深度学习模型将所有基因的表达一起嵌入到一个潜在空间中不同,DeepSEM的编码器函数仅将一个基因的表达作为神经网络的输入特征。不同基因的神经网络之间共享权重,或者可以将其视为使用一个神经网络来扫描所有基因。在这一步,模型中不同基因之间没有相互作用。然后另外两个全连接神经网络将这些小型神经网络的输出转换为多元高斯分布的后验均值和标准差。解耦非线性运算和基因相互作用是DeepSEM同时实现更稳健和可解释的隐含表示的关键。接下来,配备逆GRN层的解码器函数将隐含表示转换回基因表达值,这使整个框架成为自动编码器(图 2)。通过对GRN和单细胞转录组数据进行联合建模,DeepSEM作为一种多功能工具,可以通过分析不同的模块来完成单细胞数据分析中的各种任务。
图1 DeepSEM概述
左:DeepSEM两个主要模块,编码器(左下)和解码器(左上)。
右:DeepSEM通过利用不同的模块执行三个主要功能:
(1)GRN 预测(右下),(2)scRNA-seq 数据嵌入和可视化(右中),以及(3)scRNA-seq模拟(右上)。
图2 DeepSEM 的神经网络架构
DeepSEM的VAE包含四个模块:编码器、GRN层、逆GRN层和解码器。编码器和解码器都是以一个基因为输入的MLP,编码器和解码器的权重在不同基因之间共享。GRN层和逆GRN层都是基因相互作用矩阵,它们显式地对GRN网络进行建模并引导神经网络的信息流。g1-g6:基因表达数据中基因的名称;c1-c4:基因表达数据中细胞的名称;NN:神经网络。
推断GRN的性能
为了评估 DeepSEM在GRN推断上的性能,作者遵循了BEELINE框架工作,该框架收集了四种不同类型的真实网络和七个scRNA-seq数据集,其中包括五种来自小鼠的细胞系和两种来自人类的细胞系。对于每个数据集,只考虑高度可变的TF和前N个(N=500和1,000)个变化最大的基因。通过BEELINE框架中使用的早期精确率(EPR)(图 3)和精确率-召回率曲线下的面积(AUPRC比率)评估性能。作者将DeepSEM与六种基线算法进行了比较,包括GENIE3、PIDC、GRNBoost2、SCODE、ppcor和SINCERITIES,这些算法已被证明在基于BEELINE评估的基准数据集上获得最先进的性能。为了从深度学习模型中获得稳定的预测,作者使用集成策略来生成最终预测。
总体而言,就EPR和AUPRC比率指标而言,DeepSEM优于scRNA-seq数据集上的所有其他基线方法(图 3)。当使用EPR进行评估时,DeepSEM实现了最佳预测性能,并且与次佳方法(GENIE3)相比至少提高了10%。在考虑AUPRC比率指标时,DeepSEM实现了最佳预测性能,与次佳方法(PIDC)相比,性能至少提高了10%。此外,DeepSEM在大多数基准测试中的表现明显优于 SCODE、ppcor和SINCERITIES。
图3 在EPR方面的GRN预测性能总结
使用表观遗传数据验证GRN
DNA甲基化和染色质开放性会影响转录因子与顺式调控元件的结合,从而影响下游靶基因的表达。为了进一步探索DeepSEM识别的GRN的生物学意义,作者还检查了DeepSEM预测的基因调控与从细胞类型特异性表观遗传数据推断的基因调控之间的一致性。先前的研究报告称,将TF结合motif信息与表观遗传数据相结合可以细胞类型特异性方式准确预测TF结合位点。因此,作者假设,如果一个TF在给定的细胞类型中调控基因,它应该更有可能与有低CG甲基化和相应细胞类型中靶基因侧翼区域的开放染色质的TF motifs相关联。
为了验证这一假设,作者将DeepSEM框架应用于来自小鼠皮层的scRNA-seq数据集,并将结果与单核甲基胞嘧啶测序(snmC-seq)和scATAC-seq数据进行比较。为了寻找支持标记基因调控的表观遗传证据,作者使用scATAC-seq峰和差异甲基化区域(DMR)作为每个细胞类型特异性基因的潜在调控元件,然后对于每个基因,计算其预测的调节因子的比例。与作者的假设一致,作者发现不同类型的调控区域大量富集预测的TF的motifs(图 4a),表明 DeepSEM从表观遗传方面识别的GRN具有很高的准确性。
更具体地,作者检查了与Rorb基因的相关预测,发现这些TF结合motifs位于Rorb的第一个内含子中,其中motif内的胞嘧啶在L4中特异性低甲基化,表明这些TF与Rorb之间存在细胞类型特异性调节关系(图 4b)。作为另一个例子,作者预测Syt6可能受L6 CT中的 Nf1a、Stat1和Sp3调节。因此,通过与scATAC-seq数据进行比较,作者观察到与沿着Syt6基因体的这些TF的结合motif相关的区域在L6 CT细胞中是特异性开放的(图 4c)。值得注意的是,所有这六个上游TF在目标和非目标细胞类型中都一致表达(图 4d)。总之,这些研究支持作者预测的GRN,并表明DeepSEM在研究细胞类型特异性基因相互作用网络方面的潜在效用。
图4 使用表观遗传数据验证GRN预测
细胞表示
先前的研究表明,通过考虑不同基因之间的相互作用,例如蛋白质-蛋白质相互作用网络、GRN、来自体细胞RNA-seq数据的共表达网络和注释通路,可以为scRNA-seq提供更好的生物学解释。特别是,将调控关系与基因表达联系起来已被证明能够有效地克服单细胞和批量测序实验中的dropout和其他技术问题。由于DeepSEM的细胞表示是从表达式到GRN活动的非线性映射,作者假设隐含表示也可以通过显式建模GRN结构来有效定义细胞状态和细胞类型。为了评估细胞表示的质量,作者应用DeepSEM来识别9个scRNA-seq数据集上的不同细胞类型。为了对DeepSEM进行基准测试,作者还将其与其他四种方法进行了比较:scVI、DCA、ZIFA 和FA。总的来说,DeepSEM 在9个基准数据集中的5个数据集上的表现优于所有四种基线方法,并且在其他数据集上也取得了较好的性能(图 5a)。
图5 单细胞聚类和嵌入
scRNA-seq模拟
在本研究中,作者在PBMC数据集上比较了DeepSEM与其他两种基于GAN的方法 cscGAN和scGAN的模拟性能。作者发现,当使用计算方法和专家给定细胞类型标签进行聚类时,所有三种方法都可以生成与原始数据几乎无法区分的低维嵌入(图 6a)。作者训练了一个随机森林(RF)分类器以区分模拟数据和真实数据。作者的假设是,如果模拟数据生成是“真实的”,RF模型的预测性能应该接近随机。作者观察到,在区分DeepSEM生成的模拟数据和真实测试数据上,RF的分类性能与cscGAN和scGAN相比分别平均下降了1.21%和19.77%(图 6b)。DeepSEM实现了逼真的模拟,表明整合GRN可能是对scRNA-seq数据建模的关键步骤。
作者还提出了另一个概念,称为GRN一致性,用于衡量模拟单细胞的质量。GRN一致性衡量真实和模拟scRNA-seq数据之间预测GRN的差异。也就是说,如果scRNA-seq模拟是真实的,则使用模拟数据集获得的GRN预测应该与来自真实数据集的预测相匹配。作者发现,与cscGAN和scGAN相比,DeepSEM能够实现更高的GRN一致性(图 6c)。该结果表明,DeepSEM能够生成满足生物学约束的更真实的scRNA-seq数据。
图6 DeepSEM与cscGAN和scGAN模拟性能的比较
3
总结与讨论
在本文中,作者介绍了一个通用的计算框架可以联合建模GRN和单细胞转录组数据。GRN的结构被明确建模为神经网络的特殊层,作为生物约束来限制参数空间。DeepSEM与最先进的方法相比,在单细胞计算任务上取得了较好的性能。未来,DeepSEM可以通过利用GRN作为“桥梁”构建共享隐空间来整合不同的单细胞模式,以及使用DeepSEM框架整合其他分子相互作用网络。与此同时,DeepSEM也存在一些局限性,例如,DeepSEM相对其他VAE模型要慢,运行时间随着所涉及的基因数量而增加。因此作者建议用户选择高度可变的基因,而不是使用整个转录组作为输入特征。
参考资料
Shu, H., Zhou, J., Lian, Q. et al. Modeling gene regulatory networks using neural network architectures. Nat Comput Sci 1, 491–501 (2021).
https://doi.org/10.1038/s43588-021-00099-8
代码链接:https://github.com/HantaoShu/DeepSEM
推荐阅读
-
构建基因调控网络的新方法:深度学习模型探索
-
从训练到部署的手写数字识别 - Pytorch 深度学习网络构建与模型训练
-
41 个下载免费 3D 模型的最佳网站-使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 17. Clara.io Clara.io 是一个创建 3D 内容的全球平台,也是一个培养新 3D 艺术家的社区。Clara.io 提供+100,000个免费的3D模型,包括OBJ,Blend,STL,FBX,DAE,Babylon.JS,Three.JS格式,用于 Clara.io,Unity 3D,Blender,Sketchup,Cinema 4D,3DS Max和Maya。 使用说明:免费,标准和专业帐户仅供个人使用,如果您需要将 clara.io 用于商业用途,请与销售团队联系。 18. 3DExport 3DExport是一个市场,您可以在其中购买和销售用于CG项目的3D模型,3D打印模型和纹理。它提供15 +不同的3D格式供下载,如3DS MAX(.max),Cinema4D(.c4d),Maya(.mb,.ma),Lightwave(.lwo),Softimage(.xsi),Wavefront OBJ(.obj),Autodesk FBX(.fbx)等。它还提供15种不同的语言! 使用说明:免费下载仅供个人和非商业用途。 19. 3D Warehouse 3D Warehouse是一个开放的库,允许用户共享和下载SketchUp 3D模型,用于建筑,设计,施工和娱乐!任何人都可以免费制作,修改和重新上传内容到3D仓库,您可以找到任何您能想到的东西,如家具,电子产品,室内产品等。 使用说明:3D Warehouse中的所有模型都是免费的,因此任何人都可以下载文件以用于SketchUp甚至其他软件,如AutoCAD,Revit和ArchiCAD。 20. CadNav.com CadNav是CGI平面设计师和CAD / CAM / CAE工程师的在线3D模型库,我们提供超过50000 +免费3D模型和CAD模型下载。在CadNav网站上,您可以下载高质量的多边形网格3D模型,3D CAD实体对象,纹理,Vray材料,3D作品,CAD图纸等。 使用说明:免费下载仅供个人和非商业用途。 21. All3dfree.net 就像网站名称一样,它提供免费的3D模型,还包括Vray材料,CAD块,2d和3d纹理集合,无需注册即可免费下载。它是不断更新的,因此您可以查找或请求3DS,MAX,C4D,skp,OBJ,FBX,MTL等格式的模型。 使用说明:所有资源均不允许用于商业用途,否则您将承担责任。 22. Hum3D 自2005年以来,Hum3D帮助来自3多个国家的80D艺术家节省3D建模时间,并制作逼真的3D模型,用于电影,视频游戏,AR应用程序和可视化。所有模型均由首席3D艺术家进行验证,他们检查其是否符合专业要求和最新的3D建模标准。 使用说明:免费下载仅供个人和非商业用途。 23. Artist-3D.com 艺术家-3D 库存的免费 3D 模型下载按通用类别排序。它为人体解剖学、汽车、家具、火箭、卫星等模型提供 AutoDesk 3DS Max 格式。您还可以在浏览他们的网站时找到教程和类似类型的建模。 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 24. Free the models 就像本网站的标题一样,它为3d应用程序和3d游戏引擎提供免费的内容模型。您可以为您的任何项目找到许多有趣且有用的模型!它提供3ds,wavefront,bryce,poser,lightwave,md2和unity3d格式的模型。还有一个很棒的纹理集合,可以在您最喜欢的建模和渲染程序中使用。 使用说明:您从这里下载的所有内容都可以免费使用,除非它不能包含在另一个免费的网络或CD收藏中,也不能单独出售。否则,您可以在商业游戏,3D应用程序或渲染作品中使用它。您不必提供信用,但如果您这样做,那就太好了。 25. Resources.blogscopia 本网站由一家名为Scopia的公司创建。他们制作3D图像和视频,您可以找到许多为CGI工作的信息架构设计的模型,所有这些都可以在现实生活中使用。您可以免费下载它们,但是,如果您想一次下载它们,您可以支付 3 到 9 欧元。 使用说明:您可以免费下载模型部分的所有文件。每个压缩文件都包含您也可以在此处找到的许可证。基本上,您可以对文件执行任何操作。唯一的限制是不归属于Scopia的重新分发。 26.ambientCG 1000+公共领域PBR材料适合所有人!环境CG是使用许多不同的方法和资产类型创建的,例如照片纹理(PBR),贴花(PBR),图集(PBR),照片纹理(普通),物质存档(SBSAR),雕刻画笔,3D模型和地形。您可以在所有项目中*使用它们! 使用说明:在 ambientCG 上提供下载的所有 PBR 材料、画笔、照片和 3D 模型均根据知识共享 CC0 1.0 通用许可提供。您可以复制、修改、分发和执行作品,即使是出于商业目的,也无需征得许可。信用将不胜感激。 不要满足于平庸的大理石纹理 - 立即使用我们的免费PBR大理石纹理升级您的3D设计。 27.Pixar One Twenty Eight 这是一个提供官方动画行业经典纹理的网站:皮克斯,创建于 1993 年,该纹理库包括 128 个重复纹理,现在免费提供。 它包含您来到的纹理,包括砖块和动物毛皮。肯定会有一些你可以使用的东西。 使用说明:皮克斯动画工作室的《Pixar One Twenty Eight》根据知识共享署名4.0国际许可协议进行许可。即使出于商业目的,您也可以重新混合、调整和构建您的作品,只要您以相同的条款对新创作进行信用和许可。 访问数以千计的免费纹理并提升您的设计游戏 - 立即开始下载! 28. 3DXO 即使有近 620 个免费贴纸可供下载,3DXO 也不是最大的资源,但它的内容非常有用,不需要注册。无论是简单的墙壁或地板,还是一些奇怪的小东西,您都需要的纹理都可以在此网站上看到。 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 29. 3DModelsCC0 3DModelsCC0 与其他产品的不同之处在于它包含超过 250+ 个高质量 3D 模型,并且本网站上的所有内容都是免费的,完全是公共领域!使用我们的模型时无需信用或归属! 使用说明:为每个人提供完全免费的公共领域内容。 30.Sketch up texture club Sketchup Texture Club是一个非营利性的教育和信息门户网站,由3D社区的图像促进协会管理,特别强调面向学生和建筑和室内设计专业人士的可视化和渲染技术,以及所有正在学习3D可视化的人。 使用说明:您无需支付版税或使用费。纹理可以免费下载和使用。不允许将纹理作为竞争产品出售或重新分发,即使图像被修改也是如此。 31. FlippedNormals FlippedNormal 是一个提供计算机图形和 3D 资产的市场,您可以找到许多用于雕刻、建模、纹理、概念艺术、3D 模型、游戏资产或课程的高级资产! 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 32. NASA 3D NASA 3D网站是一个在线门户,提供与太空和各种NASA任务相关的大量三维模型和模拟。该网站是用户友好的,并提供有关每个型号的详细信息。该网站允许用户探索和下载几种不同格式的模型,包括 OBJ、STL 和 FBX,只需单击下载按钮即可。 使用说明: 要下载模型,只需单击模型页面上的下载按钮并选择所需的格式。 33. 3DAGOGO (Astroprint) 3DAGOGO 是一个提供广泛 3D 模型的网站,包括角色、车辆和建筑物。3DAGOGO 的独特功能之一是它专注于适合 3D 打印的模型,使其成为希望创建物理原型或模型的设计师的绝佳资源。要使用 3DAGOGO,设计师只需在网站上搜索他们正在寻找的模型类型,然后下载 STL 格式的文件。 使用说明: 要使用 3DAGOGO,只需搜索所需的 3D 模型类型并下载 STL 格式的文件。根据需要自定义模型,并确保在将其用于商业目的之前检查使用权限。 34. FreeCAD FreeCAD是一款了不起的3D建模软件,可让您在计算机上创建令人难以置信的3D设计。该软件可免费下载和使用,它提供了广泛的工具和功能,可用于创建用于各种目的的3D模型。 该网站易于浏览,您可以找到开始使用FreeCAD的所有必要信息。此外,该网站还提供一系列教程和指南,可帮助您了解 3D 建模的来龙去脉。 使用说明: 要下载模型,请访问网站并从库中选择所需的模型。该网站还提供了一系列使用该软件的教程和指南。 35. Pinshape Pinshape是一个提供一系列3D打印模型的网站。网站上提供的型号质量很高,因此您可以确保您的最终印刷产品看起来很棒。该网站提供了广泛的模型,包括从家居用品到小雕像和珠宝的所有物品。 但这还不是Pinshape所能提供的全部!该网站还允许用户上传和共享自己的3D模型。这意味着您不仅可以下载出色的模型,还可以通过分享自己的设计为社区做出贡献。此外,Pinshape 提供了一系列自定义选项,因此您可以调整和调整模型以满足您的特定需求。 使用说明: 要下载模型,请在网站上创建一个帐户,搜索所需的模型,然后单击下载按钮。该网站还为每种型号提供了一系列定制选项。 36.Yeggi Yeggi 提供了大量免费的 3D 模型,您可以下载各种格式的模型,例如 STL、OBJ 和 FBX。该网站易于使用,您可以按关键字、类别或特定网站搜索模型。 Yeggi 对于任何寻找 3D 模型的人来说都是一个很好的资源。它提供了大量的模型集合,从日常物品到复杂的机械,以及介于两者之间的一切。该网站的收藏量在不断增长,每天都有新的型号增加。 使用说明: 要下载模型,请在网站上搜索所需的模型,然后单击下载按钮。该网站还提供指向托管模型的原始网站的链接。 37. Open3DModel 来自开放3D模型的图像 Open3DModel具有各种类别的模型,包括建筑,车辆和角色。无论您需要建筑物,汽车还是人的3D模型,都可以在此网站上找到。 该网站易于浏览,您可以按类别或关键字搜索模型。每个模型都附带预览图像和详细信息,例如文件格式、大小和多边形数量。此信息可以帮助您选择适合您需求的模型。 使用说明: 要下载模型,请访问网站,从库中选择所需的模型,然后单击下载按钮。 使用最好的 3D 资产管理工具简化您的 3D 制作流程。立即试用它们,将您的 3D 项目提升到一个新的水平! 38. 3DExport 对于那些为其 3D 设计项目寻找 3D 模型、纹理和其他资源的人来说,该平台是一个很好的资源。该网站有大量模型可供选择,包括 3D 打印对象、游戏资产等。用户可以按类别、文件格式或价格范围浏览,以找到适合其项目的完美资源。此外,3DExport 还提供一系列教程和其他 3D 资源,以帮助用户提高技能并创建更令人印象深刻的设计。 使用说明: 要使用 3DExport,只需创建一个帐户并浏览可用型号。您可以按类别、格式和价格进行搜索,以找到所需的型号。找到喜欢的模型后,只需下载它并开始在您的项目中使用它。 39.Blend Swap Blend Swap是一个社区驱动的市场,提供与Blender软件兼容的各种免费3D模型。该平台允许用户共享和下载模型、纹理和其他资产,以便在他们的项目中使用。 使用说明: 创建免费帐户后,您可以浏览社区上传的大量3D模型。当您找到要使用的一个时,只需下载它并将其导入您选择的 3D 软件即可。 40. 3DShook 3DShook 是一个高级 3D 模型市场,提供一系列用于建筑、游戏等各个行业的高质量模型。该平台提供基于订阅的模型,具有不同的定价计划,允许用户访问一系列模型。 使用说明: 注册免费帐户后,只需浏览3D模型库,选择您喜欢的模型,然后以您需要的格式下载它们。 41. Smithsonian X 3D 史密森尼 X 3D 对于正在寻找历史文物和文物的高质量 3D 模型的设计师来说,这是一个独特的资源。该平台提供了大量3D模型,这些模型是根据史密森尼博物馆和研究中心中的真实物体扫描创建的。 使用说明: