搞懂geo表达值tcga表达值差异，别在数据比对上踩坑了-HKEA.CN

很多刚入行或者正在做生信分析的朋友，经常拿着GEO数据库的数据去和TCGA的数据做对比，结果发现对不上号，甚至怀疑自己代码写错了。其实这真不是你的问题，而是两个数据库的底层逻辑和实验设计根本就不是一个维度的东西。这篇文章我就掏心窝子跟你们聊聊，怎么正确看待geo表达值tcga表达值之间的巨大鸿沟，以及在实际分析中该怎么处理这些差异，避免白白浪费时间在无效比对上。

首先得明白，GEO（Gene Expression Omnibus）是个啥。它其实是个大杂�，里面装着全球各地实验室上传的各种原始数据。你进去搜，可能今天有个博士上传了小鼠模型的数据，明天有个教授上传了人类细胞系的数据。这种数据的异质性极高，平台多样，有Affymetrix的芯片，也有Illumina的测序数据。而TCGA（The Cancer Genome Atlas）呢，它是美国国家癌症研究所牵头做的一个大型项目，专门针对癌症，而且统一用了RNA-Seq测序技术，样本标准化程度非常高。这就好比一个是菜市场里各家各户自己种的菜，品种、农药、施肥都不一样；另一个是大型超市里经过严格质检、统一包装的蔬菜。你非要拿菜市场的散装土豆去和超市的精品土豆比口感，那肯定比不出个所以然来。

很多人喜欢直接拿GEO的原始计数或者标准化后的FPKM值，去跟TCGA的TPM值做相关性分析。这种做法在统计学上是非常危险的。因为GEO里的数据，不同研究之间可能连背景校正的方法都不一样，有的甚至没做批次效应去除。而TCGA的数据虽然也经过处理，但它内部有一套非常严格的质控流程。如果你直接把这两者放在一起跑个PCA或者相关性热图，你会发现除了几个看家基因（Housekeeping genes）有点关联外，其他差异基因（DEGs）的重叠率可能低得让你怀疑人生。我之前带过一个实习生，他就死磕这个，最后发现是因为GEO里混入了正常组织和肿瘤组织，而TCGA里全是肿瘤，这种样本组成的不对等，直接导致了结果的偏差。

那么，正确的姿势应该是啥？第一，不要跨平台直接比。如果你非要比，最好是用TCGA的数据作为金标准，去验证GEO中某个特定队列的结论是否一致，而不是去挖掘新的差异基因。第二，关注生物学通路而不是单个基因。虽然具体基因的表达量数值对不上，但某些核心通路（比如PI3K-AKT通路、细胞周期通路）在癌症中的变化趋势，在两个数据库中往往是高度一致的。这才是我们做分析真正想看到的生物学意义。第三，利用元分析（Meta-analysis）的思路。如果你手里有多个GEO数据集，可以先在GEO内部做整合，去除批次效应，形成一个大的共识集，然后再去跟TCGA的大队列做对比。这样能减少单个GEO研究带来的偶然性误差。

这里有个很现实的问题，就是临床信息的缺失。GEO里的很多数据集，临床注释非常简陋，可能只有“肿瘤”和“正常”两个标签，没有分期、分级、生存期这些信息。而TCGA的数据，临床信息详尽到令人发指。所以，当你发现GEO里的某个基因在肿瘤中高表达，但在TC里没显著差异时，别急着否定GEO的结果，很可能只是因为你缺乏足够的临床分层信息来揭示这种差异。

最后给个结论，别把geo表达值tcga表达值当成可以直接互换的数字。它们是不同语境下的语言。做研究要诚实，承认数据的局限性，用合适的方法去整合它们，而不是强行拉郎配。只有这样，你的分析结果才能经得起推敲，发文章的时候审稿人也不会拿着放大镜挑你的毛病。希望这篇干货能帮大家在数据处理的泥潭里少摔几个跟头。

资讯详情

搞懂geo表达值tcga表达值差异，别在数据比对上踩坑了

相关新闻

GEO表达谱评分到底咋算？别被算法忽悠，看懂这几点才不踩坑

别瞎忙了！做geo表达差异分析前，这3个坑我踩了7年才填平

geo标王推广平台合作怎么避坑？老鸟掏心窝子分享实战干货

最新新闻

日新闻

周新闻

月新闻