写点什么

Sentieon 项目文章 | 社区努力识别和纠正蛋白质基因组研究中标签错误的样本

作者:INSVAST
  • 2025-05-29
    广东
  • 本文字数:3389 字

    阅读完需:约 11 分钟

Sentieon 项目文章 | 社区努力识别和纠正蛋白质基因组研究中标签错误的样本

关键词:多组学;蛋白质;错误标记;


引言

在日常生活中,会经常遇到物品与标签错误的问题,比如超市商品标价错误、图书馆书籍分类错误等。都会造成一些后果。在生物医学研究领域中,蛋白质样本标记错误同样是一个普遍存在的问题。特别是在现代高通量组学研究中,由于实验流程复杂、样本数量庞大,标记错误的情况更为常见。这些错误不仅会浪费昂贵的实验资源,更可能导致研究结论的错误,影响后续的临床决策。


以下的文章,主要为大家介绍一个样本错误标记自动检测与纠正工具 COSMO,以及它在多组学研究中的应用价值。


文献介绍

  • 标题(英文):A community effort to identify and correct mislabeled samples in proteogenomic studies

  • 标题(中文):社区努力识别和纠正蛋白质基因组研究中标签错误的样本

  • 发表期刊:Patterns

  • 作者单位:西奈山伊坎医学院、Sentieon 公司等

  • 发表年份:2021

  • 文章地址:https://doi.org/10.1016/j.patter.2021.100245

图 1 文献介绍


随着 TCGA 和 CPTAC 等大型项目推动多组学研究的深入开展,数据量和复杂度显著提升,但人为错误导致的样本标记问题也随之凸显。虽然在遗传和基因组数据方面已有多种检测方法,但这些方法难以直接应用于特性不同的蛋白质组数据。


为解决这一问题,precisionFDA 和 NCI-CPTAC 发起了"多组学样本错误标记纠正挑战赛",旨在开发自动化工具来检测和纠正蛋白质基因组数据集中的错误标记。


本次挑战赛基于 181 个结直肠癌肿瘤样本的 RNA 测序、蛋白质组学和临床数据展开。通过随机抽样创建训练和测试数据集,并在数据集中故意引入错误标记,用于测试参与者的检测和纠正能力。


挑战赛分为两个子挑战:第一个子挑战要求参与者基于临床和蛋白质组数据检测不匹配样本;第二个子挑战增加 RNA-seq 数据,要求参与者检测问题样本、识别错误数据类型并进行纠正。


测序流程

来自 15 个国家的 52 个团队参与比赛。结果显示,处理蛋白质组数据的缺失值时,使用 0 替换的策略表现最佳。在模型构建方面,子挑战 1 表现较好的团队都结合了逻辑回归(LR)、随机森林(RF)和 KNN 等方法。


子挑战 2 的结果证明,多组学数据整合能提供更准确的错误检测。前三名团队均采用基于 Pearson 或 Spearman 的相关性分析进行数据匹配,并使用热图可视化辅助标签纠正。其中,来自隆德大学、莱特州立大学和 Sentieon 公司的团队表现最佳。

图 2 挑战赛结果总结

(A) 全球参与者情况显示对挑战问题的高度关注。

(B) 对子挑战 1 中 52 个独特提交者的 149 份提交作品进行性能评估。对每份提交作品评估了具有 95%置信区间的 F1 分数,并对独特提交者取平均值。

(C) 子挑战 2 的评估。共评估了 31 个独特提交者的 57 份提交作品的平均 F1 分数。观察到两个子挑战的提交性能都呈现广泛分布。即使在同一团队内,性能也有很大差异,表明标准化方法的重要性。

(D 和 E) 团队在子挑战 1 中的表现与缺失数据插补方法(C)和特征选择方法(D)之间的关联。使用平均百分位排名作为度量标准。

(F) 使用 50 个结肠癌模拟数据集(具有固定类型和错误数量)评估子挑战 2 中前三名方法的稳健性。P 值使用双侧配对 Student's t 检验计算。


挑战赛结束后,表现最佳的三个团队进行后续合作。通过对原始 50 个训练/测试数据集的评估,莱特州立大学和 Sentieon 公司展现出优异的表现,平均 F1 分数为 0.9,明显优于基线方法的 0.68。而隆德大学团队由于难以将人工检查转化为自动流程,整体表现相对较弱。


为模拟真实场景,研究人员基于结肠数据创建了 50 个具有不同错误标记率和模式的新数据集。只有莱特州立大学的方法成功适应,F1 分数为 0.92。通过整合莱特州立大学和 Sentieon 公司的方法,检测和纠正错误的准确性得到进一步提升。

图 3 COSMO 及其在独立测试数据集上的表现

(A) 通过从结肠癌数据集生成具有不同类型和数量的样本标记错误的模拟数据集来模拟样本错误标记的真实情况。

(B) 不同临床属性预测来源的性能。P 值使用双侧配对 Student's t 检验计算。

(C) COSMO 检测和纠正临床或组学数据中错误标记样本的整体示意图。

(D) 使用 CPTAC 肾癌数据集生成具有不同类型和数量的样本标记错误的模拟数据集来模拟样本错误标记的真实情况。

(E) COSMO 在(D)中 50 个模拟数据集上的性能。


基于这些发现,研究团队开发了自动化工具 COSMO,结合了莱特州立大学的整体流程和 Sentieon 公司的临床属性预测算法,COSMO 在肾癌研究数据集的验证中展现出极高的准确性,F1 分数中位数达 0.99。即使错误率>20%的情况下仍能保持出色表现,F1 分数大于 0.9。


COSMO 在六个独立的多组学数据集中进行了实际应用验证。在已知存在错误标记的三个人类肿瘤数据集中,COSMO 成功识别出 CPTAC 肺癌数据集(preQC CPTAC LUAD)中四对互换样本、CPTAC 肾癌数据集(preQC CPTAC CCRCC)中三个错误标记样本,以及 TCGA 乳腺癌数据集(TCGA BRCA)中八对互换样本。


在此前未报告错误的三个数据集中,COSMO 的应用也取得了重要发现。虽然 CCLE 细胞系数据显示完全对齐,但在人类淋巴母细胞系研究中发现了 RNA-seq 数据的两个样本互换和蛋白质组的一个重复样本。在外繁小鼠肝脏研究中,COSMO 检测到了九对互换样本。


图 4 COSMO 在真实数据集中的应用

(A) CPTAC LUAD:四对蛋白质组学样本在 RNA-seq-蛋白质组学和蛋白质组学-CNV 之间相互匹配,但在 RNA-seq-CNV 中未观察到标记交换。

(B) CPTAC CCRCC:蛋白质组学中的三个样本在 RNA-seq-蛋白质组学和蛋白质组学-CNV 匹配中发生偏移,而 RNA-seq 和 CNV 之间的样本匹配良好。

(C) TCGA BRCA:八对微阵列样本在 RNA-seq-微阵列和微阵列-CNV 匹配中发生交换。

(D) Battle 等人的研究:基于 RNA-seq、蛋白质组学和 Riboseq 数据的比对,发现两个 RNA-seq 样本发生交换。观察到潜在的重复蛋白质样本。

(E) Chick 等人的研究:RNA-seq 和蛋白质数据之间有九对样本发生交换。与样本性别的临床注释合并表明蛋白质组学数据中存在交换。


研究表明样本错误标记的纠正对生物学结论有重要影响。以 CPTAC 肺癌研究为例,纠正样本标记后,差异表达蛋白的数量从 160 个增加到 584 个。并提高了检测性别相关通路的能力。


在免疫热/冷肿瘤分析中,错误纠正后不仅识别出比纠错前多 20%的差异表达蛋白,还揭示了其他与免疫反应相关的重要通路。

图 5 COSMO 错误纠正在 CPTAC LUAD 数据集中的生物学影响

(A) 错误纠正前后男性和女性肿瘤之间 DEPs 的数量。

(B) 比较 8,528 个蛋白质在男性和女性肿瘤之间的 t 检验 FDR(-log10)。

(C) 错误纠正前后与性别 DEPs 显著相关的 HALLMARK 通路(FET FDR < 0.05)。COSMO 后的独特 DEPs 也用于功能富集测试。

(D) 免疫热和免疫冷肿瘤中 DEPs 的数量。

(E) 比较 8,528 个蛋白质在免疫热和免疫冷肿瘤之间的 t 检验 FDR。

(F) 与免疫热亚型肿瘤中上调蛋白质显著相关的 HALLMARK 通路。

(G) 纠正前后 8,366 个基因-蛋白质对的相关强度。Pearson 相关 p 值经 Benjamini-Hochberg 调整为 FDR,然后进行-log10 转换。 (H) 仅在错误纠正后显著的 269 个基因-蛋白质对的相关强度差异。


在多组学分析方面,COSMO 的纠正同样带来显著的改善效果。在 CPTAC 肺癌研究中,修复了 7.5%的错误标记就使 85%基因的 mRNA-蛋白质相关性得到提升,还发现 267 个新增的显著相关基因,包括多个重要的癌症相关基因。即使在错误率为 3.5%的 CPTAC 肾癌数据集中,纠正后也观察到了 62%基因的相关性提升。


在外繁小鼠研究中,基于 COSMO 纠正后的数据重新进行 pQTL 分析,发现遗传变异对蛋白质组的影响更强烈,新分析多识别出了 497 个局部 pQTL。

图 6 错误纠正影响的 pQTL 分析 OMA1 局部 pQTL 的对数优势比(LOD)得分在错误纠正后从 24(左)增加到 31(右)。


Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。



总结

虽然研究仍存在着一些局限性,如:训练集和测试集不是完全独立的,因此不能保证获胜解决方案的泛化能力。使用单一的数据集来进行性能验证限制了评估结果的稳定性等。


但研究展示了 COSMO 在处理不同类型组学平台、不同生物体以及各类研究中的通用性和可靠性,证明了 COSMO 作为自动化解决方案的价值。也凸显了样本错误标记纠正对提高组学研究准确性的重要性。

用户头像

INSVAST

关注

还未添加个人签名 2023-07-04 加入

还未添加个人简介

评论

发布
暂无评论
Sentieon 项目文章 | 社区努力识别和纠正蛋白质基因组研究中标签错误的样本_蛋白质_INSVAST_InfoQ写作社区