如何从GEO数据库下载数据

  
 

 

今天,我们主要介绍如何从GEO数据库下载数据。

 

下载数据很简单,难点在于如何找到自己需要的数据。

 

在理想的状态下,基因表达数据及含有生存信息的临床数据会在同一个数据集中。

 

下载后,既能得到基因表达谱做表达分析,同时也能得到生存数据做预后分析。

 

但在实际寻找数据集的过程中,两个条件都满足的情况较少。

 

所以一般情况下,我们可以先寻找符合其中一个条件的数据集,下载里面的GPL文件和表达矩阵“series matrix”做表达分析;

 

再寻找另外一个包含样本生存数据的临床特征数据集,做生存分析。

 

 
因此,这篇文章将分为两个示例,分别演示如何下载做差异分析所用的基因表达数据集,以及做生存分析所用的、含有样本生存信息的临床特征数据集。
                                      
▽  示例1
 
我们想研究某个基因在正常组织及肺癌组织中的mRNA表达水平,那么首先我们需要查找到包含有正常组织和肿瘤组织的、与肺癌相关的基因表达数据集。
 
Step 1. 首先进入GEO数据库首页:
https://www.ncbi.nlm.nih.gov/geo/
 
 
GEO数据库提供了两种检索模式。
第一种是常用的Datasets子数据库,我们所需要的大部分数据集都是从里面下载的。
第二种是Profile子数据库,以基因为单位,检索其相应癌种的基因表达谱,用得较少。
 
本文着重讲解第一种检索模式。
点击1处,进入datasets子数据库搜索模式。
 
Step 2来到如下界面。
 
框内输入我们所研究癌种的关键词进行检索。
 
为避免检索出现遗漏,可同时输入相关术语的缩写,用or连接。
 
本文以肺癌为例,输入“lung cancer or LCA”。
 
 
Step 3. 来到如下界面。
 
 
根据关键词搜索,会有很多数据集被检索到,建立有效的筛选机能够帮助我们缩小搜寻范围。
 
一般通用的筛选条目有如下三个,可依次选中。
1处是数据集类型,选Series。
2处是数据类型,限定为基因表达谱数据集。
3处是组织来源,一般选择人类。
 
Step 4. 第一轮筛选结束后,会过滤掉很多不相关的研究,即可以开始找寻我们想要的数据集。
 
如何能在众多数据集中快速地找到目标数据集,不仅需要我们在一次次的搜寻过程中逐渐提高信息敏感度能迅速通过一些关键词组判定它是否为我们想要的数据集。
 
另外也可以设定一些“门槛”,过滤掉一些无效数据集。
 

门槛1:样本数量。一般样本量过少的数据集直接pass,自己可以设定样本量阈值,如不小于10,不小于20等。

 

门槛2:GPL注释文件。没有此文件的同样pass;也可以选择来自同一个平台的研究。GPL后面的数字代表的是不同的研究平台,数字一致,则不同研究的数据检测平台一致。

 

门槛3:GPL注释文件里,没有Gene symbol也可以pass。(这一点我们稍后会讲到)

 
这些是比较通用的门槛。
 
通过种种限制条件,会再次筛选出符合条件的数据集。
 
Step 5. 接着我们来看数据集呈现的具体信息。
 
 

1处为研究的标题名称。

 

框2处为研究的概述。

 

框3处为我们之前筛选的条件,研究物种和数据类型。

 

框4处为平台注释信息和实验所包含的样本数量。

 

框5处为数据集ID,这个ID非常重要,需要记住,它能帮助期刊或审稿人搜寻到我们所用的数据集。

 

Step 6. 某一研究是否为我们需要的目标数据集,这时候需要我们点击相关数据集的标题进去,查看详细信息,才能最终确定。

 
点击上图框1处标题,来到如下界面,可以看到关于这个实验的所有详细信息。
 

 
 
其中,有几个信息需要我们注意。
 

1. 数据集编号,在右上角有显示(红框),这个编号很重要,我们写文章的时候一般在Methods & Material中会提及。

 

2. 数据集介绍,如红框2所示,这个里面包含了关于数据集的详细介绍及实验设计思路,读了这两段之后我们就知道这个数据集是不是我们想要的了。

 

3. 检测平台,即Platform号码,一般是GPLxxxx的格式,这个里面包含了检测平台的基因注释信息,也很重要。

 

4. 样本信息,在Samples(红框所示)中会显示样本总量及每个样本的编号,默认是折叠起来的,点击“More”可以显示完整。同时,如果要查看这个实验中每个样本的详细临床信息,点击任意一个样本的GSMxxxx编号即可。

 
 
Step 7. 本例中,小编需要找寻含有肿瘤样本和正常组织样本的肺癌相关数据集。
 
通过阅读以下数据集相关信息,小编最终确定GSE85841数据集为所需要的目标数据集。
 
 
点击任意一个样本(Samples)的GSM号,即可查看该样本的详细信息。
 
 
可以看到,数据集里的样本名称包含不同的命名方式。
 
一般英文字母一致的为同类型组(如肿瘤组、正常组等),每一组里任意点击一个样本,就能得知该组样本的信息。
 
首先在A组里点击任意一个样本,查看相关信息。
 
 
框1为该样本的命名。
 
框2该样本的临床特征信息。不同数据集的特征信息不同。除图中所列之外,还会出现性别、年龄、生存时间、种族等信息。
 
框3为提取的分子类型。Total RNA就为我们需要的类型。
 
接着,再点击B组里的任意一个样本,发现所列信息与A组中的一致。因此A组和B组都为正常组。
 
接下来我们接着确认C组和D组的样本信息,点击同组里任意一个样本GSM号查看。可以看到样本名称和样本特征信息都为肺腺癌肿瘤组织。(下图所示)
 
 
到这一步可以得出,这个数据集即为包含了正常组织和肺癌肿瘤组织的目标数据集,其中包含8个正常样本和8个肿瘤样本。
 
Step 8. 确定了数据集后,就可以开始下载了。
 
我们这一步需要下载两个文件:
 
(1)表达矩阵“series matrix”文件和(2)GPL平台注释文件。
 
 
点击1处下载矩阵文件,点击2处下载GPL平台注释文件。
 
点击1处后,跳出如下界面,点击红框处即可下载;
点击框2即可下载GPL20115平台注释文件。
 
下载之前,我们需要点击该GPL文件,浏览里面的信息,查看是否有Gene Symbol标识;
 
若无Gene Symbol标识,则表示该平台无基因的ID注解,我们无法对ID进行基因名的转换。
 
因此,查找数据集时除了样本信息要符合我们的需求外,还要确保能得到我们的数据。
 
 
Step 9. 通过上述步骤下载的表达矩阵文件“series matrix”是一个压缩包,解压后得到txt文档,用Excel打开即可。
 
 
上图为series matrix矩阵文件解压后的数据表,该数据表包含样本临床信息、基因表达谱两类数据。
 
高亮以上为样本临床信息,高亮以下为包含上万个基因的基因表达谱。
 
红框所示内容为基因的ID名称可以看出,在基因表达谱部分,“行”是基因的样本ID编号,“列”是表达数据的矩阵。但矩阵不含基因名,不方便我们进行后续分析。
 
因此,我们需要对红框所列数据进行替换,将基因ID替换为我们熟悉的基因名。(对这些数据的处理在下篇推文中会讲到)
 
通过上一个步骤下载的第2个平台注释文件GPL20115,是对基因ID的基因名注解。
 
下图为打开后的GPL20115平台注释文件。该文件中第1列为基因的ID,文件也包含了相关ID的基因名,即Gene Symbol。
 
 
因此后续操作,我们需要利用这个ID与series matrix矩阵文件中的ID进行匹配,将Gene Symbol列提取至series matrix矩阵文件。(下篇文章中会有相关演示)
 
匹配后,即可得到“行”是基因名,“列”是表达值的基因表达谱啦。
 
从这个表达谱中,就可以提取自己感兴趣的基因表达值做后续分析。
                              
▽  示例2
 
生信分析少不了生存分析,通过GEO数据库也可查找包含有患者生存信息的数据集。
 
数据集的筛选步骤与之前的一致,只是关键词检索时可加入OS或survival、Time等词语,检索结果会更靠近我们的预期。
 
需要注意的是:
 
选取数据集时,需要更为详细地点进实验样本数据(GSM号)中,查阅样本的临床特征信息中是否带有time、OS、DFS、stage等与生存时间相关的数据
 
 
 
做生存分析,需要准备2个文件:
 
(1)基因表达谱文件和(2)临床资料数据表。
 
表达谱文件:按照上一个示例中的下载步骤,下载series matrix文件与GPL平台文件,得到一个“行”是基因名,“列”是样品名的表达矩阵。整理好的表达文件即包含了感兴趣的基因表达值。
临床资料数据:样本的临床信息(如年龄、生存时间等)位于series matrix文件中,需要将相关的临床样本信息提取出来,放置于其他excel表格中。
 
至此,基因表达谱和临床资料信息已准备齐全,
 
下篇文章,小编就带大家一起处理这几个表格,转换成数据分析软件可识别的信息。
 

在学习过程中,有任何疑问,都可以添加下方小助手微信咨询~  

 

 

生信相关分析,欢迎共同探讨

 

扫码关注学术小助手

共同探讨学术问题

 

线上教学

Online Teaching