群体基因组文献解读 -Prediction of axillary lymph node metastasis in triple-negative breast cancer by multi-omics analysis and an integrate
关键词:群体基因组;三阴性乳腺癌(TNBC);淋巴结转移(LNM);
文献介绍
标题(英文):Prediction of axillary lymph node metastasis in triple-negative breast cancer by multi-omics analysis and an integrated model
标题(中文):基于多组学分析和整合模型的三阴性乳腺癌腋窝淋巴结转移预测
发表期刊:Ann Transl Med
作者单位:复旦大学附属肿瘤医院等
发表年份:2022
文章地址:https://doi.org/10.21037/atm-22-277
图 1 文献介绍
三阴性乳腺癌(TNBC)是一种侵袭性强、预后较差的乳腺癌亚型。准确预测 TNBC 患者的腋窝淋巴结转移(LNM)状态对于制定个体化治疗方案至关重要。尽管前哨淋巴结活检(SLNB)是当前的标准方法,但它仍然具有侵入性和潜在并发症风险。因此,开发一种非侵入性的、准确的 LNM 预测工具成为当前研究的重点。
测序流程
在该研究中,研究者使用 Sentieon 软件中 TNseq 模块和 TNscope 模块同时进行体细胞突变检测。
图 2 Sentieon 的作用
本研究基于复旦大学上海癌症中心的 TNBC 多组学队列,采用了综合的多组学方法来预测 TNBC 患者的 LNM 风险。研究组收集并分析了 445 名 TNBC 患者的临床病理信息、基因组数据和转录组数据。其中,169 名患者为 LNM 阳性,276 名患者为 LNM 阴性。通过比较 LNM 阳性和阴性病例之间的差异,研究者识别出了潜在的 LNM 相关标志物。
图 3 队列的组成和划分。(A) 所有数据被分为腋窝淋巴结阳性和阴性组:(I) 共纳入 445 名患者,169 名腋窝淋巴结阳性,276 名阴性;(II) 全外显子测序(WES, n=265);(III) 体细胞拷贝数变异(SCNA, n=385);(IV) 转录组(n=346);(V) 所有患者均有临床病理信息。(B) 训练集和验证集的定义。根据手术时间将整个队列分为训练集(n=305, 68.5%)和验证集(n=140, 31.5%)。LN, 淋巴结;SCNA, 体细胞拷贝数变异;TNBC, 三阴性乳腺癌。
在基因组层面,研究发现 LNM 阳性病例的突变事件中位数为 54,略高于阴性病例的 49。体细胞拷贝数变异(SCNAs)分析显示,LNM 阴性病例的 SCNAs 扩增和缺失频率分别达到 68.9%和 82.3%。转录组分析则识别出了 3,420 个差异表达基因,占总基因数的 10.9%,其中 1,954 个基因在 LNM 阳性病例中上调,1,466 个基因下调。
图 4 淋巴结阳性和阴性患者的基因组差异。(A) 淋巴结阳性和阴性患者的突变特征。每列代表一个患者。上方条形图显示肿瘤突变负荷(TMB)。右侧数字表示每个基因的突变频率。(B) 淋巴结阳性和阴性患者之间的显著突变差异。图中显示突变事件数量和精确 P 值(Fisher 精确检验)。(C) 淋巴结阳性和阴性患者的 SCNA。每个垂直条表示一个基因的扩增(深红)、获得(浅红)、缺失(深蓝)和丢失(浅蓝)频率。(D) 比较淋巴结阳性和阴性患者在扩增为中心(黄色)或缺失为中心(绿色)计算中的 SCNA(Fisher 精确检验)。
研究组基于不同类型的组学数据分别构建了预测模型。在训练集和验证集中,这些单一组学模型的 AUC 值范围从 0.501 到 0.805 不等。具体而言,临床模型在训练集和验证集中的 AUC 分别为 0.624 和 0.602;突变模型的 AUC 为 0.591 和 0.501;SCNA 模型的 AUC 为 0.805 和 0.558;表达模型的 AUC 为 0.777 和 0.656;Lehmann 亚型模型的 AUC 为 0.656 和 0.650;FUSCCTNBC 亚型模型的 AUC 为 0.623 和 0.627。
图 5 临床模型构建的细节。(A) 训练集中临床模型的受试者工作特征(ROC)曲线下面积(AUC)。(B) 验证集中临床模型的 AUC。
图 6 突变模型构建的细节。(A) 基于训练集的所有突变特征的最小绝对收缩和选择算子(LASSO)系数曲线。(B) 使用 LASSO 算法选择最佳突变特征。(C) 训练集中突变模型的 AUC。(D) 验证集中突变模型的 AUC。
为提高预测准确性,研究者整合了各模型的优势特征,最终确定了 5 个关键预测标记:肿瘤大小、ZBTB6 和 MTHFD1 的 SCNAs,以及 GLP1R 和 NPY5R 的 mRNA 表达水平。基于这些标记构建的多组学预测模型展现出卓越的性能,在训练集和验证集中的 AUC 值分别达到 0.790(95% CI: 0.711–0.869)和 0.807,显著优于单一组学模型。
图 7 四个单组学预测模型和一个多组学模型的性能。(A) 训练集中六个单组学模型预测 LNM 的 AUC 性能。(B) 验证集中六个单组学模型预测 LNM 的 AUC。(C) 基于训练集的 105 个 ALN 状态相关标记的 LASSO 系数曲线。(D) 使用 LASSO 算法识别 ALN 状态相关标记,在训练集中选择 25 个最佳标记。(E) 使用 AUC 显示多组学模型在训练集中的性能,并添加 95%置信区间。(F) 使用 AUC 显示多组学模型在验证集中的性能,并添加 95%置信区间。
此外,研究还探索了一种全面集成的方法,将所有多组学因素纳入考虑,构建了更为复杂的集成模型。该模型在训练集和验证集中的 AUC 值分别为 0.83 和 0.73,进一步证实了多组学方法在提高预测准确性方面的优势。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
文献讨论
图 8 文献讨论
研究旨在为三阴性乳腺癌患者提供更准确的腋窝淋巴结转移风险评估工具。研究者综合分析了临床病理信息、基因组和转录组数据,构建了一个多组学预测模型。结果显示,该多组学模型表现优于单一组学模型,能更好地区分淋巴结阳性和阴性病例。
研究发现,不同组学技术对预测的贡献不同,其中转录组数据显示最显著差异。最终模型包含了 5 个关键预测因素,涉及肿瘤大小、特定基因的拷贝数变异和 RNA 表达水平。这些发现为 TNBC 淋巴结状态预测提供了新的思路。
总结
该研究首次利用大规模 TNBC 多组学数据分析 LNM 相关特征,建立了一个稳健的多组学 LNM 预测模型。不仅有助于 TNBC 患者的精准淋巴结管理,还为进一步研究 TNBC 淋巴结转移机制提供了重要线索。例如,研究发现与免疫和中性粒细胞相关的通路在 LNM 阳性病例中显著上调,这为理解 TNBC 转移机制提供了新的视角。
评论