写点什么

文献解读 - 长读长测序 - 第十三期|《PrecisionFDA 真相挑战第二版:利用短读长和长读长在难比对区域进行变异检测》

作者:INSVAST
  • 2024-07-01
    广东
  • 本文字数:1169 字

    阅读完需:约 4 分钟

文献解读-长读长测序-第十三期|《PrecisionFDA真相挑战第二版:利用短读长和长读长在难比对区域进行变异检测》

关键词:基因组;长读长测序;基准测试;


文献简介

  • 标题(英文):PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions

  • 标题(中文):PrecisionFDA 真相挑战第二版:利用短读长和长读长

  • 发表期刊:Cell Genomics

  • 作者单位:美国国家标准与技术研究院材料测量实验室、美国食品药品管理局、Sentieon 公司、谷歌公司等

  • 发表年份:2022

  • 文章地址https://doi.org/10.1016/j.xgen.2022.100129

图 1 文献介绍

PrecisionFDA 始于 2015 年,旨在支持美国食品药品管理局 (FDA) 在基因组学方面的监管标准制定,此后扩展到支持所有组学领域。precisionFDA 挑战框架是该平台最具对外特征的功能之一。该框架在面向公众的环境中举办生物数据挑战,并提供用于测试和验证的可用资源。

第一届瓶中基因组(GIAB)-precisionFDA 真相挑战于 2016 年举办,项目要求参与者从两个 GIAB 样本的短读长数据中进行小型变异检测。HG001 样本(也作 NA12878)的基准测试先前公开过,但是 HG002 样本的基准测试未公开过。这使得 HG002 成为第一个盲法胚系突变挑战,公开的检测结果可以作为新的检测方法的比较点。


测序流程

图 2 真相挑战 V2 流程图

与第一次真相挑战集中在基因组简单区域不同,在本次挑战中,除了提供来自 illumina 的短读长数据外,还包括 Pacific Biosciences [PacBio] HiFi 和 Oxford Nanopore Technologies [ONT]的长读长数据,以评估各种数据类型的性能。本次基准测试涉及基因组重复区域和 MHC 等复杂区域。

参赛者被要求利用 GIAB 德系犹太人的家系样本不同数据平台产出的数据进行变异检测,提交最终 VCF 格式变异检测结果。最终,20 支来自全球各地的团队提交了 64 个结果。

图 3 挑战提交的分类统计和表现概览

图 4 Sentieon 的作用

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。 截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。


文献讨论

图 5 挑战最佳表现者概要

可以看到大部分提交都使用了深度学习算法,特别是在长读长数据处理中。另外,Sentieon 公司的提交在所有三中测序平台数据及所有基准测试、难比对区域及 MHC 区域等各方面均具有 top 级别表现。


总结

综上所述,本次真相挑战凸显了在表征临床重要 MHC 位点方面、增加了基因组难比对区域的基准集、首次使用了盲法样本等诸多创新。通过比较各提交者的结果,发现与第一次真相挑战相比,某些方法针对于非盲样本可能存在过度拟合的情况。

用户头像

INSVAST

关注

还未添加个人签名 2023-07-04 加入

还未添加个人简介

评论

发布
暂无评论
文献解读-长读长测序-第十三期|《PrecisionFDA真相挑战第二版:利用短读长和长读长在难比对区域进行变异检测》_基准测试_INSVAST_InfoQ写作社区