欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

全球环境展望数据库数据集与剖面图之间的区别

最编程 2024-05-22 15:54:26
...

GEO Database

近年来,利用高通量方法检测基因表达越来越普及,诸如微阵列杂交和基因表系列分析(SAGE)可以同时测量数以万计的基因转录脚本(gene transcript)。基因表达大棚车(GEO:Gene Expression Omnibus)则是归档和*分发科研人员提交的高通量基因表达数据的公共仓库。目前,GEO存储了大约10亿单个基因表达的数据,来自于100多种生物,内容广泛涉及到各种生物学问题。这些大容量的数据可以使用用户友好的以Web为基础的工具进行有效的挖掘,检索和可视化表达。GEO的网址是https://www.ncbi.nlm.nih.gov/geo/

GEO数据库dataset和profiles区别

我们在NCBI上搜索数据的时候,会发现有两个搜索入口,GEO DataSets 和 GEO Profiles,那么他们有什么不同呢:

attachments-2019-11-CTMcTuzO5dc8fc3612e0d.png

通过下面的介绍,我们就可以知道他们的不同了:

搜索数据选择GEO DataSets,如果搜索某个基因表达量可选择GEO Profiles。

GEO数据介绍

GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前你要了解GEO数据库的4个概念和4个数据存放类型:

一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。

详细信息见:https://www.ncbi.nlm.nih.gov/geo/info/overview.html

attachments-2019-11-6sikxAVd5dc8ea36cf88f.png

NCBI 的 GEO DataSets 和 GEO Profiles 相比有什么区别?
GEO DataSets: GEO数据库(收录整个试验的数据)
GEO Profiles数据库 (它负责收录一个基因在一次试验中的定量基因表达数据)
这么说吧,要理解Datasets和Profile有何区别,先得整明白GEO原始数据是如何提交的。
GEO有三种供提交者提交数据的平台,分别是Platform、Samples、Series。
Platform用来提交对序列及基于序列的平台的描述。Samples用来提交样本的处理条件、丰度测量方式。一条Series将一组相关Samples连接在一起,并提供了整个研究的描述,包括对数据的描述,总结分析。
image

回到题目,提交的原始数据怎么为各国学者方便地使用呢?
GEO管理人员通过算法对原始数据经过整理和标准化后,就产生了可被可视化的Datasets和Profiles。换言之,这是种高级数据。
Datasets是由GEO工作人员将Series数据整理所得,可以被可视化和分析,代表了生物学和统计学上可以被比较的样本的集合。而Profiles来源于Datasets,由在Datasets中所有样品的单个基因的表达测量结果组成。

推荐阅读