写点什么

Hap-eval:Sentieon 开源的多测序平台 SV 精度评估工具

作者:INSVAST
  • 2023-08-25
    广东
  • 本文字数:1100 字

    阅读完需:约 4 分钟

开发背景

Sentieon 专业软件开发团队除了专注于高效基因组数据分析工具的研发,还与专业合作伙伴一起积极的参与到大型的临床科研项目中,其中就包括了美国国立卫生研究院 NIH 赞助的 Gabriella Miller Kids First (GMKF) 项目。此项目落地于费城儿童医院数据中心,已经产生了来自于 2 万名患者的 4.8 万套全基因组数据,涉及了包括 44 种儿童癌症以及出生缺陷在内的多种疾病。除了常规的二代测序之外,GMKF 也启动了三代测序项目,评估长读长序列对于基因组结构变异(SV)检测的灵敏度与准确性。相比于二代数据,三代数据不但可以更好的检测到大跨度的结构变异,同时还可以更加准确的提供定相(Phasing)分析。



作为项目的基础,高质量的 SV 准确率评估工具是必不可少的。然而目前主流的 SV 评测工具有些主要针对短读长数据,有些无法检测复杂区域尤其是重复区域,而这些需求对于三代长读长 SV 的准确性评估极为重要。

工具原理

基于项目对效率和精度的要求,Sentieon 团队开发了 Hap-eval 工具,并将之开源。Hap-eval 工具是基于单倍型 (haplotype) 对两组 SV 结果进行比较,首先会将比较区块内的 SV 拼接成单倍型序列,如果 SV 的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。



安装方法

git clone --recurse-submodules https://github.com/Sentieon/hap-eval.gitpip install ./hap-eval
复制代码

使用方法

usage: hap_eval [-h] -r FASTA -b VCF -c VCF [-i BED] [-t INT] [--base_out VCF]                [--comp_out VCF] [--maxdist INT] [--minsize INT]                [--maxdiff FLOAT] [--metric STR]
optional arguments: -h, --help show this help message and exit -r FASTA, --reference FASTA Reference file -b VCF, --base VCF Baseline vcf file -c VCF, --comp VCF Comparison vcf file -i BED, --interval BED Evaluation region file -t INT, --thread_count INT Number of threads --base_out VCF Annotated baseline vcf file --comp_out VCF Annotated comparison vcf file --maxdist INT Maximum distance to cluster variants (default: 1000) --minsize INT Minimum size of variants to consider (default: 50) --maxdiff FLOAT Haplotype difference theshold (default: 0.2) --metric STR Distance metric (default: Levenshtein)
复制代码

开源地址

https://github.com/Sentieon/hap-eval
复制代码

 

软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

用户头像

INSVAST

关注

还未添加个人签名 2023-07-04 加入

还未添加个人简介

评论

发布
暂无评论
Hap-eval:Sentieon开源的多测序平台SV精度评估工具_代码_INSVAST_InfoQ写作社区