今天,我们主要介绍如何从GEO数据库下载数据。
下载数据很简单,难点在于如何找到自己需要的数据。
在理想的状态下,基因表达数据及含有生存信息的临床数据会在同一个数据集中。
下载后,既能得到基因表达谱做表达分析,同时也能得到生存数据做预后分析。
但在实际寻找数据集的过程中,两个条件都满足的情况较少。
所以一般情况下,我们可以先寻找符合其中一个条件的数据集,下载里面的GPL文件和表达矩阵“series matrix”做表达分析;
再寻找另外一个包含样本生存数据的临床特征数据集,做生存分析。
因此,这篇文章将分为两个示例,分别演示如何下载做差异分析所用的基因表达数据集,以及做生存分析所用的、含有样本生存信息的临床特征数据集。
我们想研究某个基因在正常组织及肺癌组织中的mRNA表达水平,那么首先我们需要查找到包含有正常组织和肿瘤组织的、与肺癌相关的基因表达数据集。
https://www.ncbi.nlm.nih.gov/geo/
第一种是常用的Datasets子数据库,我们所需要的大部分数据集都是从里面下载的。
第二种是Profile子数据库,以基因为单位,检索其相应癌种的基因表达谱,用得较少。
为避免检索出现遗漏,可同时输入相关术语的缩写,用or连接。
本文以肺癌为例,输入“lung cancer or LCA”。
根据关键词搜索,会有很多数据集被检索到,建立有效的筛选机制,能够帮助我们缩小搜寻范围。
Step 4. 第一轮筛选结束后,会过滤掉很多不相关的研究,即可以开始找寻我们想要的数据集。
如何能在众多数据集中快速地找到目标数据集,不仅需要我们在一次次的搜寻过程中逐渐提高信息敏感度,能迅速通过一些关键词组判定它是否为我们想要的数据集。
另外也可以设定一些“门槛”,过滤掉一些无效数据集。
门槛1:样本数量。一般样本量过少的数据集直接pass,自己可以设定样本量阈值,如不小于10,不小于20等。
门槛2:GPL注释文件。没有此文件的同样pass;也可以选择来自同一个平台的研究。GPL后面的数字代表的是不同的研究平台,数字一致,则不同研究的数据检测平台一致。
门槛3:GPL注释文件里,没有Gene symbol也可以pass。(这一点我们稍后会讲到)
Step 5. 接着我们来看数据集呈现的具体信息。
框1处为研究的标题名称。
框2处为研究的概述。
框3处为我们之前筛选的条件,研究物种和数据类型。
框4处为平台注释信息和实验所包含的样本数量。
框5处为数据集ID,这个ID非常重要,需要记住,它能帮助期刊或审稿人搜寻到我们所用的数据集。
Step 6. 某一研究是否为我们需要的目标数据集,这时候需要我们点击相关数据集的标题进去,查看详细信息,才能最终确定。
点击上图框1处标题,来到如下界面,可以看到关于这个实验的所有详细信息。
1. 数据集编号,在右上角有显示(红框),这个编号很重要,我们写文章的时候一般在Methods & Material中会提及。
2. 数据集介绍,如红框2所示,这个里面包含了关于数据集的详细介绍及实验设计思路,读了这两段之后我们就知道这个数据集是不是我们想要的了。
3. 检测平台,即Platform号码,一般是GPLxxxx的格式,这个里面包含了检测平台的基因注释信息,也很重要。
4. 样本信息,在Samples(红框所示)中会显示样本总量及每个样本的编号,默认是折叠起来的,点击“More”可以显示完整。同时,如果要查看这个实验中每个样本的详细临床信息,点击任意一个样本的GSMxxxx编号即可。
Step 7. 本例中,小编需要找寻含有肿瘤样本和正常组织样本的肺癌相关数据集。
通过阅读以下数据集相关信息,小编最终确定GSE85841数据集为所需要的目标数据集。
点击任意一个样本(Samples)的GSM号,即可查看该样本的详细信息。
一般英文字母一致的为同类型组(如肿瘤组、正常组等),每一组里任意点击一个样本,就能得知该组样本的信息。
框2为该样本的临床特征信息。不同数据集的特征信息不同。除图中所列之外,还会出现性别、年龄、生存时间、种族等信息。
框3为提取的分子类型。Total RNA就为我们需要的类型。
接着,再点击B组里的任意一个样本,发现所列信息与A组中的一致。因此A组和B组都为正常组。
接下来我们接着确认C组和D组的样本信息,点击同组里任意一个样本GSM号查看。可以看到样本名称和样本特征信息都为肺腺癌肿瘤组织。(下图所示)
到这一步可以得出,这个数据集即为包含了正常组织和肺癌肿瘤组织的目标数据集,其中包含8个正常样本和8个肿瘤样本。
Step 8. 确定了数据集后,就可以开始下载了。
(1)表达矩阵“series matrix”文件和(2)GPL平台注释文件。
点击1处下载矩阵文件,点击2处下载GPL平台注释文件。
下载之前,我们需要点击该GPL文件,浏览里面的信息,查看是否有Gene Symbol标识;
若无Gene Symbol标识,则表示该平台无基因的ID注解,我们无法对ID进行基因名的转换。
因此,查找数据集时除了样本信息要符合我们的需求外,还要确保能得到我们的数据。
Step 9. 通过上述步骤下载的表达矩阵文件“series matrix”是一个压缩包,解压后得到txt文档,用Excel打开即可。
上图为series matrix矩阵文件解压后的数据表,该数据表包含样本临床信息、基因表达谱两类数据。
高亮以上为样本临床信息,高亮以下为包含上万个基因的基因表达谱。
红框所示内容为基因的ID名称,可以看出,在基因表达谱部分,“行”是基因的样本ID编号,“列”是表达数据的矩阵。但矩阵不含基因名,不方便我们进行后续分析。
因此,我们需要对红框所列数据进行替换,将基因ID替换为我们熟悉的基因名。(对这些数据的处理在下篇推文中会讲到)
通过上一个步骤下载的第2个平台注释文件GPL20115,是对基因ID的基因名注解。
下图为打开后的GPL20115平台注释文件。该文件中第1列为基因的ID,文件也包含了相关ID的基因名,即Gene Symbol。
因此后续操作,我们需要利用这个ID与series matrix矩阵文件中的ID进行匹配,将Gene Symbol列提取至series matrix矩阵文件。(下篇文章中会有相关演示)
匹配后,即可得到“行”是基因名,“列”是表达值的基因表达谱啦。
从这个表达谱中,就可以提取自己感兴趣的基因表达值做后续分析。
生信分析少不了生存分析,通过GEO数据库也可查找包含有患者生存信息的数据集。
数据集的筛选步骤与之前的一致,只是关键词检索时可加入OS或survival、Time等词语,检索结果会更靠近我们的预期。
选取数据集时,需要更为详细地点进实验样本数据(GSM号)中,查阅样本的临床特征信息中是否带有time、OS、DFS、stage等与生存时间相关的数据。
表达谱文件:按照上一个示例中的下载步骤,下载series matrix文件与GPL平台文件,得到一个“行”是基因名,“列”是样品名的表达矩阵。整理好的表达文件即包含了感兴趣的基因表达值。
临床资料数据:样本的临床信息(如年龄、生存时间等)位于series matrix文件中,需要将相关的临床样本信息提取出来,放置于其他excel表格中。
下篇文章,小编就带大家一起处理这几个表格,转换成数据分析软件可识别的信息。
在学习过程中,有任何疑问,都可以添加下方小助手微信咨询~