搞懂geo数据库基因数据和测序数据，新手别被坑了-HKEA.CN

刚入行做生信分析那会儿，我差点被GEO数据库里的坑给埋了。那时候觉得下载个矩阵文件就能直接跑差异分析，结果折腾了一周，发现样本注释全乱套，P值漂亮得像是编出来的。现在回头看，很多新人还是在这个环节栽跟头。今天不整那些虚头巴脑的理论，就聊聊怎么从GEO里扒出真正能用的geo数据库基因数据和测序数据。

先说个真事儿。上个月有个做肿瘤免疫的学生找我救火，他说他下了个GSE系列的芯片数据，跑出来几十个差异基因，看着挺美，但拿qPCR一验证，连一个对的都没有。我让他把原始数据拿出来看看，好家伙，样本分组标签全是错的，有的甚至把对照组标成了处理组。这就是典型的“垃圾进，垃圾出”。GEO里确实有很多高质量数据，但更多是那种为了凑文章数量随便上传的“半成品”。

所以，找数据的第一步，不是急着点Download，而是看Metadata。别光看摘要，要去翻Sample Series里的详细信息。比如你看测序数据，一定要确认它是RNA-seq还是小RNA-seq，链特异性有没有做，测序深度够不够。我见过有人拿单细胞数据去跑bulk分析的代码，那结果肯定是一团浆糊。对于geo数据库基因数据和测序数据，原始数据（Raw Data）永远比处理过的表达矩阵靠谱。矩阵文件虽然方便，但里面可能已经经过某种未知的标准化处理，或者去掉了低表达基因，这会让你后续的分析失去灵活性。

再说说那个让人头大的平台信息。GEO里混着Affymetrix、Illumina甚至一些老旧的ABI芯片。如果你做的是芯片数据，一定要确认探针是否还有效。有些老芯片的探针现在早就被废弃了，或者对应不上最新的基因组注释版本。我上次处理一个2010年的数据，发现好几个关键基因的探针号根本查不到，最后只能放弃那部分数据，重新找更新的研究。这种细节如果不注意，后面全是无用功。

还有，别迷信高引用量。有些文章引用了几百次，但数据质量未必经得起推敲。我倾向于看最近三年内的数据，尤其是那些来自大型合作项目或者公开了原始FASTQ文件的。对于geo数据库基因数据和测序数据，原始序列文件（FASTQ）才是王道。有了FASTQ，你才能自己控制质控、比对、定量每一步的参数。如果只给一个FPKM或者TPM矩阵，那你基本就被锁死了，没法做新的分析角度。

另外，样本量的问题也得注意。GEO里很多数据集样本量特别小，比如每组只有3个生物学重复。这种数据跑差异分析，统计效力很低，很容易出现假阳性。除非你是做探索性的，否则尽量找样本量在5-10个以上的数据集。如果样本量实在太小，那就考虑合并多个相似的数据集，但合并前一定要做批次效应校正，不然批次效应比生物学差异还大，那分析就全偏了。

最后提醒一点，下载数据的时候，别只盯着GEO的官方页面。有时候官方页面加载慢，或者文件链接失效。可以用一些第三方工具或者脚本批量下载，但一定要核对MD5值，确保文件没损坏。我有一次因为网络波动，下载完没校验，结果跑分析到一半报错，查了半天才发现文件少了几兆，差点崩溃。

总之，GEO是个宝库，也是个雷区。用得好，能省半年实验时间；用不好，全是垃圾数据。希望大家在处理geo数据库基因数据和测序数据时，多花点时间在数据质控和注释上，别急着跑代码。毕竟，分析结果的可信度，取决于你输入数据的质量。别为了快而快，慢就是快。

资讯详情

搞懂geo数据库基因数据和测序数据，新手别被坑了

相关新闻

GEO数据库获取非log化数据：别死磕日志，这招真香

别瞎忙了！搞懂geo数据库和组学研究，你的课题才能跑出漂亮结果

搞了7年SEO，终于搞懂geo数据库合并方法，别再瞎导数据了

最新新闻

日新闻

周新闻

月新闻