拿geo正常样本联合TCGA做分析？别瞎搞，这坑我踩过三次-HKEA.CN

干这行七年了，见过太多刚入行的兄弟，拿到一堆数据就兴奋得不行，觉得只要把GEO里的正常样本和TCGA的肿瘤样本往一起一扔，跑个差异表达，画个火山图，论文就稳了。说句掏心窝子的话，这种想法太天真，甚至有点危险。我当年也这么干过，结果被导师骂得狗血淋头，后来花了半年时间才把数据清洗干净。今天就把我踩过的坑、总结出来的土办法，毫无保留地分享给你们，希望能帮你们少走弯路。

首先，你得明白一个核心逻辑：GEO里的正常样本，大多是健康人的组织，或者是术后切下来的非癌旁组织；而TCGA的数据，虽然也是临床样本，但它的测序平台、批次效应、甚至样本处理流程，跟GEO完全不是一个量级的。你直接拿它们联合起来做分析，那就是在拿苹果和橘子比味道，最后得出的结论，大概率是噪音。

我上次接的一个项目，客户非要搞个geo正常样本联合TCGA的研究，想找出某种癌症的特异性标志物。起初我也没在意，直接把GEO的GSM数据下载下来，跟TCGA的HTSeq数据拼在一起。跑完PCA图一看，好家伙，聚类完全按来源分，而不是按疾病状态分。这说明啥？说明批次效应大得离谱。这时候你要是硬跑差异分析，那些所谓的“差异基因”，其实全是技术误差。

那咋办？硬刚呗。我的经验是，先做标准化。GEO的数据你得去NCBI或者GEO官网下原始CEL文件，用R语言里的affy或者oligo包重新做背景校正和标准化。千万别直接用别人处理好的FPKM或者TPM，那玩意儿没法跟TCGA的count数据直接比。TCGA的数据虽然官方给了FPKM，但为了保持一致性，最好还是用raw count去跑DESeq2或者edgeR。

还有一个容易被忽视的点，就是组织来源的匹配。比如你要研究肺癌，GEO里可能混进了很多肺纤维化或者肺炎的正常肺组织，而TCGA里的癌旁组织，往往也是经过手术切除的，可能受到化疗或放疗的影响。这种细微的差别，在生物统计学上就是巨大的干扰。我在处理数据时，会仔细查阅每篇GEO文章的Supplementary Material，把那些明显不符合“健康”定义的样本剔除掉。这一步很繁琐，但绝对必要。

再说说怎么提高结果的说服力。光靠差异表达是不够的，你得结合功能富集分析。比如GO和KEGG通路，看看这些差异基因是不是集中在某些关键的生物学过程上。如果GEO和TCGA的结果能互相印证，那你的结论就站得住脚。反之，如果两个数据集的结果南辕北辙，那你得停下来反思，是不是样本量不够，或者批次校正没做好。

我常跟学生说，数据分析不是简单的代码堆砌，而是对生物学问题的深入思考。当你拿到geo正常样本联合TCGA的数据时，你要问自己：这些正常样本真的能代表“正常”吗？TCGA的肿瘤样本有没有混杂其他因素？只有把这些细节想透了，你的分析才有价值。

最后，提醒一句，别为了发文章而发文章。真正的科研价值，在于你能不能从杂乱的数据中，提炼出有意义的生物学信号。这个过程很痛苦，经常要面对报错、死循环、结果不显著等问题。但当你最终看到那些清晰的聚类图、显著的差异基因时，那种成就感，是任何东西都换不来的。

所以，下次再有人问你，GEO和TCGA能不能直接合并？你可以告诉他，能，但得先过标准化、批次效应、样本匹配这三关。别嫌麻烦，这一步省不得。毕竟，咱们做这行的，靠的是真本事，不是运气。希望这篇分享，能帮你理清思路，别再在那无头苍蝇似的乱撞了。加油吧，同行们。

资讯详情

拿geo正常样本联合TCGA做分析？别瞎搞，这坑我踩过三次

相关新闻

做了13年SEO老鸟掏心窝子：geo真假什么区别？别被割韭菜了

别被忽悠了！老鸟揭秘geo真假背后的那些坑，看完省下一半冤枉钱

做了9年SEO，我劝你搞懂geo折纸这玩意儿，别被割韭菜

最新新闻

日新闻

周新闻

月新闻