PaddleX 图像分割赋能医疗领域筛查检测,打造智能医疗诊断系统
在医疗科技的前沿探索中,恶性皮肤肿瘤的早期识别与治疗显得至关重要。据 2024 年 2 月国家癌症中心发布的数据,中国恶性皮肤肿瘤的发病率已达 2.4/10 万,且每年新发病例约 3.5 万例[1]。尤其值得关注的是,晚期恶性皮肤肿瘤的生存率极低,例如黑色素瘤晚期的五年生存率仅 4.6%,中位生存期不过 1.42 年,凸显了早期诊治的紧迫性[2]。
然而,皮肤病变检测领域长期受专业门槛高、医疗资源分布不均的制约。患者常因难以自行察觉早期皮肤病变而错失治疗良机,加之医疗资源的地区差异,使得许多患者难以及时获得准确诊断,这不仅加剧了病情恶化的风险,还增加了患者的经济负担。此外,在皮肤科医生短缺的现状下,传统的人工筛查方式效率低下,误诊率也居高不下,严重影响了医疗服务的质量和效率。同时,检测设备制造商也亟需技术革新,以更尖端的图像处理和识别技术来提升产品竞争力,回应市场需求。
鉴于此,郑州轻工业大学梅科尔工作室基于 PaddleX 低代码开发工具,研发了恶性皮肤肿瘤早期识别智能辅助筛查系统,提供更加精准的医学影像分割和重建服务,实现对各类皮肤病的快速识别、检测与分析。该系统利用皮肤镜精准捕获患者的皮肤图像,结合先进的语义分割模型 PP-LiteSeg,实现迅速且精确地识别恶性皮肤肿瘤,以简化繁复的人工操作流程,降低漏诊和误诊的风险。同时,这一系统的应用还将有效节约了时间成本和人力资源,为缓解医疗资源紧张和医患比例失衡的问题提供实质性的帮助。
01 场景难点
项目前期,为了对皮肤病筛查检测行业有一个更深入的了解,郑州轻工业大学梅科尔工作室团队与河南省中医院皮肤科主任进行深入交流,并邀请作为项目的指导医师,了解行业最新一线数据,发现目前行业主要面临着以下问题:
1.皮肤镜图像有毛发等噪音遮挡,需要对毛发等噪音进行滤除;
2.皮肤病种类繁多,各类皮肤病类别不均衡,类别内部形态不一,需要大量的高质量数据;
3.辅助医师进行检测,同时保证患者隐私问题和推理速度,需要较高的检测精度和较快响应的部署方案;
4.跨学科合作的难度较高,皮肤病行业医疗专家和算法的技术人员相互了解不足,需要进行团队成员间的交叉融合;
02 方案设计
**2.1 数据收集和整理
目前皮肤病检测行业拥抱 AI 需要解决的核心问题是大规模的、高质量的各类皮肤病的数据集,以支持项目能够达到较高的准确率,达到辅助医师检测,提高检测效率,并降低误诊率的效果。
郑州轻工业大学梅科尔工作室团队成员进行多方面查找,获取到 ISIC2018、ISIC2019、ISIC2020 三年发布的大规模皮肤镜图像数据集作为项目数据集,该数据集包括 61051 张来自 2056 名患者的良性和恶性皮肤病变图像,图像来自全球 6 个医疗机构,包括光化性角化病、基底细胞癌、良性角化病、皮肤纤维瘤、黑色素瘤、黑色素细胞性痣、血管性皮肤病变,共 7 类疾病。
在数据集的处理部分,基于 EasyData 平台的一栈式数据处理服务对各类不均衡的皮肤病数据进行增强,同时为了实现对各类皮肤病的精准识别,也符合皮肤镜图像中只有一类病灶区域的特点,项目第一步采用图像分割算法进行病灶区域提取,考虑到人力物力等投入成本,项目目前从每类疾病中选择约 540 张照片,共 4200 张图像进行数据标注,基于 LabelMe 进行图像分割的标注,后面直接采用 PaddleX 的格式转换工具进行一键转换。
后续项目初版模型训练出来后,同时也计划与各医院的皮肤科进行合作,以数据飞轮的形式对模型实现不断的迭代优化。
2.2 模型选择
考虑到不同应用场景对模型精度和速度的不同需求,PaddleX 提供了两种不同规模的模型,相关 benchmark 指标如下表所示:
由于我们希望对模型做快速的迭代和验证,希望模型在保证精度的同时,迭代的速度尽可能快,所以我们选择了 PP-LiteSeg-T。
03 零代码开发
3.1 数据校验
零代码产线提供数据划分及数据校验功能。经过数据校验,我们可以得到如下结果,其中包含在训练集、验证集抽取的样本带标签的可视化效果,以及数据集的样本类别分布图。
3.2 模型训练
完成数据校验后,即可使用校验通过的数据对模型进行训练。众所周知,超参数对模型精度的影响非常大,因此,星河零代码产线将影响最大的一些超参数在前端展示了出来,方便用户调试。配置好参数后,可一键提交训练。在此处,我们选择 4 卡训练。
3.3 模型优化
模型精度受超参数的影响,其中影响最大的超参数莫过于学习率和迭代次数。学习率决定了模型学习的速率,迭代数决定了模型学习样本的数量。在不同的模型、不同的数据集上,这两个值的最优值都不固定,所以需要通过实验来搜索寻找最优值。此处,我们首先固定迭代次数为 1000,寻找最优的学习率。学习率探寻实验结果如下:
从上表中的结果可以观察到,最优的学习率为 0.02。接下来探寻最优的迭代次数。因为我们在探寻学习率的时候使用了比较小的迭代次数,所以这里我们增大训练迭代数,做了多组实验,实验结果如下:
到此为止,模型的基础优化已经结束,mIoU 从 0.838 涨到了 0.868。此时此刻,我们得到了一个 GPU 推理耗时 5.98ms、皮肤肿瘤分割指标(mIoU)为 0.868 的 PP-LiteSeg-T 的模型,使用这个模型,我们就可以真实地部署上线,测试线上效果啦!
04 模型部署与效果展示
星河零代码产线打通了模型部署流程:我们可以选择标记过的模型权重,一键部署在线服务。服务部署完成后,不仅可以在其他联网设备中通过 API 调用服务,也可以通过在线体验应用测试模型对单张图像的处理效果。
△在线服务化部署界面
△服务调用方式
△服务化部署测试效果
如需将模型部署到离线设备上,也可导出离线部署包,并根据其中的示例文档在自己的设备上实现快速部署。
05 用户的声音
飞桨低代码开发工具 PaddleX 强大的算法和计算能力为图像分割和识别提供了有力支持,并通过其高效便捷的全流程开发和私有化部署多硬件支持的特性,项目得以通过不断优化和升级算法,筛查系统能够处理更复杂的病例,识别更多种类的皮肤病变,以及扩展到如脊柱 NIFTI 医学影像分割重建等其他疾病的筛查领域,未来将集成到端侧处理设备中,方便用户交互和使用,辅助提升医疗诊断效率与质量。
在其他行业领域,我们将继续扩大范围,促进生产效率提升,优化质量控制与成本结构,推动智能制造、绿色能源网络、精准医疗及生命科学智能化的进程,加速技术创新与产业升级,促进跨学科融合创新,为社会的可持续发展和科技进步带来了积极贡献。
————END————
推荐阅读
评论