欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

从GEO数据库到ID的转换指南(第一部分)

最编程 2024-02-15 13:08:15
...

GEO数据库-ID转换系列(一)

作者:jzhang

前言:我们都知道很多人在进行GEO数据库挖掘的时候,首先遇到的第一个痛点就是探针ID转换成gene symbol的问题,gene symbol因为被大家熟悉所以得到广泛采用。针对此问题,我进行了一个总结贴。

一般ID转换分为以下几个办法:

  • 使用GEO数据库提供的GPL文件
  • 金标准当然是去基因芯片的厂商的官网直接去下载啦
  • 使用bioconductor里面的芯片探针注释包
  • 使用探针序列进行序列比对注释(以上办法都不能解决的时候

今天我们先介绍如何在GEO官网下载注释文件

1.GEO官网

我们可以去官方地址进行下载:https://www.ncbi.nlm.nih.gov/geo/
下面以GPL570为例子进行说明,首先进入官网,在下方窗口数据GPL编号进行搜索,

进入搜索页面。


搜索页面

搜索结果页面:


搜索结果页面

一般在搜索页面都会有对注释文件的表头的描述,芯片注释文件内部也有,但是很多人容易忽视这个地方


image-20200726182901225.png

下面含有下载链接:


image-20200726183855290.png

第二种下载方式,使用ftp地址下载

首先找到ftp地址:https://ftp.ncbi.nlm.nih.gov/geo/

image-20200726184220868.png

进来之后,我们发现数据都在这里,注释信息就在platforms:

image-20200726184318777.png

然后点击进入,根据编号GPL570,判断在GPLnnn目录下,可以看着这个命名后面都有3个n:

image-20200726184446136.png

然后发现有三个文件,https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPLnnn/GPL570/,分别是

  • annot:含有简版的注释信息文件,一般有一些平台是没有这个文件的,文件名字为GPL570.annot.gz

  • miniml:是xml格式的注释文件,这个一般会被分割成好几个,文件也都特别大,一般不用

  • soft:详细版本的注释文件,这个文件也非常大,如果没有annot格式,可以选择这个,但是下载网速不是很友好,文件名字为GPL570_family.soft.gz

image-20200726184650763.png

总结上面的ftp地址特点,我们可以发现一些特征,比如soft格式文件的地址,那么以后知道了GPL标号,就可以写代码生成ftp下载地址使用迅雷,wget,axel等方式下载啦。

# 以下网址存在一些特点
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL15nnn/GPL15207/soft/GPL15207_family.soft.gz 
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL15nnn/GPL15314/soft/GPL15314_family.soft.gz 
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPLnnn/GPL570/soft/GPL570_family.soft.gz

别着急,现在还有R代码版本的下载方式,如下

# 设置下载方式
options('download.file.method.GEOquery'='auto')
options('GEOquery.inmemory.gpl'=FALSE)

# 加载需要用到的R包
library(GEOquery)
library(Biobase)

# Download GPL file, put it in the current directory, and load it:
gpl <- getGEO("GPL570", destdir=".")
colnames(Table(gpl))
head(Table(gpl)[,c(1,10,13)])
probe2symbol <- Table(gpl)[,c(1,13)]

未完待续,我们后面还有其他的下载方式,针对网速不好,没有简版注释文件等方式,学会任何一种,你都不用再害怕不会对芯片进行ID转换啦。

题外话:关于ID转换,其实还有一个很重要的背景知识需要大家学习,那就是各种数据库的ID,如果你不了解,那么除了看到你熟悉的只知道的gene symobl,有其他数据库的ID可以转换的时候,你却不知道(看见了就跟没看见一样)。小编后续也会陆陆续续介绍哒~

推荐阅读