DeepSeek 浪潮下,MedHELM 如何重塑 AI 医疗大模型评估?

随着 DeepSeek 的开源,大模型发展迎来重要变革,医疗行业在这一技术浪潮中处于前沿地位。据蓝海大脑研究数据显示,仅在 2025 年 3 月,涉及 DeepSeek 的相关项目规模就颇为可观。
众多医疗机构积极引入 DeepSeek 相关技术,以下是 2025 年 3 月 29 日部分医院的部署情况:

2025 年 3 月 29 日部分医院 DeepSeek 技术部署情况
近日某大学三甲医院部署 H20 相关设备,具体配置及性能数据如下:
单台 NVIDIA H20 配置 141GB 显存的一体机,用户并发数量为 128,token 量为 1052.92token/s。
双机配置下,2 台配置 96GB 显存的一体机,用户并发数量为 1024,token 量为 3113.38token/s。

据公开资料,在使用 DeepSeek R1 进行带思维链深度思考的短输入长输出问答场景时:
单个用户并发时,解码性能为 33.3tokens/s。
16 个用户并发时,每个用户的解码性能约为 20tokens/s。
64 个用户并发时,每个用户的解码性能约为 10.4tokens/s。
1024 个用户并发时,单台 H20 141G 八卡机实现了 3975.76tokens/s 的吞吐性能。
大型语言模型(LLM)在医疗保健领域具有显著的应用潜力,其应用范围涵盖从诊断决策到患者分诊等多个方面。常通过标准化医学考试,如美国医师执照考试(USMLE)对语言模型在医疗领域的能力进行评估。然而近期研究指出,单纯依据考试成绩评估临床实践能力存在局限性,类似于仅通过交通规则笔试来评估驾驶能力。

尽管 LLM 能够针对医疗保健问题生成复杂的回答,但其在实际临床应用中的表现仍有待深入检验。JAMA 的一项审查显示,仅有 5% 的评估使用真实患者数据,且多数研究聚焦于标准化体检表现的评估。这一现状凸显了构建更完善评估体系的紧迫性,该体系应尽可能基于真实临床数据,以准确衡量模型在实际医疗任务中的表现。
在医疗行业加速迈进智能化的进程中,大型语言模型(LLM)的应用愈发广泛,从辅助诊断决策到优化患者分诊流程,其潜力不断被挖掘。然而,如何精准衡量这些模型在真实医疗场景中的表现,成为了亟待解决的关键问题。过往单纯依靠标准化医学考试成绩来评估模型临床实践能力的方式,就像仅通过交通规则笔试来评判驾驶水平一样,存在明显的局限性。
在此背景下,MedHELM(Medical Holistic Evaluation of Language Models,医疗语言模型整体评估)应运而生。它是斯坦福大学为解决医疗 AI 模型评估难题所开发的重要工具,旨在模拟真实医疗场景,对模型进行全方位、多维度的评估,为医疗系统和决策者提供贴合实际需求的测试方法,助力其更科学地选择和部署 AI 技术。
MedHELM 的评估内容丰富且实用,它不仅仅聚焦于模型的准确性,还着重考察模型在各类医疗场景中的适用性。以紧急医疗场景为例,MedHELM 会测试模型的反应速度,确保在分秒必争的情况下,模型能快速给出有效的建议;在处理患者复杂的历史数据时,评估模型能否精准分析并给出合理判断;面对复杂的医疗决策,考量模型的可靠性。这些评估维度为医疗系统筛选合适的 AI 技术提供了关键依据。
2022 年,斯坦福大学 HAI 的基础模型研究中心开发了语言模型的整体评估(HELM)基准框架,该框架会随着时间不断更新优化。研究团队整合了生物医学信息学研究中心(BMIR)、斯坦福大学医疗保健技术和数字解决方案团队(TDS)以及 Microsoft Health and Life Sciences(HLS)的研究力量,并与临床医生、管理人员和临床信息学研究人员协同合作,基于 HELM 框架构建了适用于医疗应用的 MedHELM 评估框架。

创建 MedHELM 的步骤
1、开发实际任务的分类法:
为确保 MedHELM 全面覆盖各类医疗场景,首先梳理了医疗保健从业者认可的关键任务。遵循 HELM 框架广泛覆盖、多指标测量和标准化的原则,将这些任务归纳为五个主要类别:临床决策支持、临床笔记生成、患者沟通和教育、医学研究协助以及管理和工作流程。
进一步细分形成 22 个子类别,并初始确定了 98 个任务。为验证分类法的准确性和临床相关性,对斯坦福大学医疗保健中心 15 个医学专业的 29 名执业临床医生和临床信息学管理理学硕士(MCiM)课程的前实习生进行了调查。
结果显示,在 96.73% 的情况下,评价者认可分类法中的任务定义,分类法对临床任务的覆盖率评分为 4.21 分(满分 5 分)。基于反馈意见,新增了 23 个任务,将任务总数扩充至 121 个,并对部分子类别范围和定义进行了完善。
2、识别公共数据集和私有数据集:
全面收集从患者笔记、结构化电子健康记录(EHR)代码到患者与医疗提供者对话等各类相关数据集,并将其与相应子类别进行精准映射。
共收集 31 个数据集,其中 11 个为 MedHELM 新创建,20 个来源于现有资源。通过确保每个子类别至少对应一个数据集,实现对模型在多种真实医疗场景下性能的全面评估,评估范围涵盖从记录诊断报告到促进患者教育等各个环节。
3、将数据集转换为基准:
依据 HELM 框架,将数据集转换为基准测试需明确四个关键元素:
上下文:模型需要分析的数据集部分,例如患者备注。
提示:用于引导模型作答的说明信息,如 “计算患者的 HAS - BLED 评分”(用于支持诊断决策任务)。
参考响应:作为评估模型输出的参考标准,包括数值结果、分类标签或示例文本等。
度量:用于量化模型输出与参考响应匹配程度的评分方法,如精确匹配、分类准确率、BertScore 等。以 MedCalc - Bench 数据集为例,其属于 “支持诊断决策” 子类别,用于评估模型执行临床相关数值计算的能力。数据集中每个条目均包含临床记录、提示和真实答案。

4、选择评估指标:
利用基准对不同医疗应用场景下的模型性能进行评估。MedHELM 中的多数基准测试具备独立的性能指标,如针对是 / 否问题的分类准确性、医学计算的精确匹配等。
对于 12 个涉及开放式文本生成的数据集,建立有效的评估指标颇具挑战。现有的文本匹配指标存在一定缺陷,如倾向于较长文本生成结果或特定写作风格,难以准确反映真实临床质量。词汇重叠程度高的输出在医疗细节的正确性或完整性方面可能存在显著差异(如遗漏或添加 “fever” 一词,可能影响患者诊疗 )。因此采用多维度评估策略:
5、基于字符串的指标(BLEU、ROUGE、METEOR):通过评估 n - gram 重叠程度,查找模型输出与参考文本之间共享的单词、字母或其他符号序列,有助于捕捉语言的整体相似性,但可能忽略医疗领域特定的细微差别。
6、语义相似性(BERTScore):该指标通过将文本映射为嵌入向量并评估语义对齐程度,能够检测基于 n 元语法指标可能遗漏的释义表达。包含特定领域行话或格式不一致的文本可能会导致语义相似性评估结果出现偏差。若未来能够在医疗环境中验证基于法官 LLM 表现的评估方法的有效性,则可引入 LLM 作为评估法官的机制,进一步提升评估准确性。

MedHELM 任务分类层级图
初步结果
在零样本设置下(即不对任何特定基准进行额外微调 ),对六个不同规模和架构的大型语言模型进行评估。受限于 Stanford Medicine 安全基础设施的要求,患者数据无法与互联网公共 API 配合使用,基于此选定参与评估的模型。
这一设置有助于评估每个模型在多种医疗保健应用场景下的原生能力,评估场景涵盖从结构化分类任务(如通过 EHRSHOT 确定未来临床事件发生的可能性 )到开放式文本生成任务(如利用 MTSamples 生成治疗计划、基于 MIMIC - RRS 总结放射学报告 )。参与评估的六款模型如下:
大型模型:GPT - 4o(2024 - 05 - 13,OpenAI)和 Gemini 1.5 Pro(谷歌)。
中型模型:Llama - 3.3 - 70B - instruct(Meta)和 GPT - 4o - mini(2024 - 07 - 18,OpenAI)。
小型模型:phi - 3.5 - mini - instruct(Microsoft)和 Qwen - 2.5 - 7B - instruct(阿里巴巴)。
在 31 个基准测试与 6 个模型组合产生的 186 次可能的基准测试运行中,使用每个基准测试中多达 1000 个样本,完成 170 次评估。受保护健康信息(PHI)相关环境限制,部分小模型无法在 8 个私有数据集上进行评估。
评估结果总结如下:以 MedCalc - Bench 的示例条目为例,GPT - 4o 的回答为 “4”(正确),Qwen - 2.5 - 7B - instruct 的回答为 “3”(错误)。
初步结果仅展示临床 LLM 能力的部分情况。Gemini 1.5 Pro 和 Phi - 3.5 - instruct 等模型在某些情况下得分较低,其原因并非完全基于性能,而是涉及拒绝回答敏感医学问题或不遵循格式要求(如提供离散多项选择答案而非解释性文本 )等问题,为后续研究如何使模型输出更好匹配评估指标提出了新的挑战。
性能表现:
大型模型在复杂推理任务(如执行医学计算、检测临床文本中的种族偏见 )中表现出色;
中型模型在计算需求相对较低的医学预测任务(如预测再入院风险 )中更具优势;
小型模型在结构良好的任务中能够发挥一定作用,但在需要专业领域知识的任务(尤其是心理健康咨询和医学知识评估 )中面临较大困难。
在开放式文本生成任务中,不同模型大小之间产生了较为接近的 BertScore-F1 范围。在 12 个基准测试中的 10 个基准测试里,最低分数和最高分数之间的差异小于 0.07。这种自动化的自然语言处理(NLP)指标在分析领域性能差距时可能存在一定的局限性,难以精准地衡量不同模型在实际医疗应用中的表现差异。

不同模型在医疗保健基准测试中的性能对比图
探索与突破
MedHELM 的广泛分享,有望为医学领域实现稳健、可靠且安全的语言模型部署带来积极影响。这种基准测试方法为后续研究开辟了新的方向。

1、指标设计与模型可控性匹配的必要性:
在指标设计方面,当前基准测试中 BertScore-F1 的变化大多源于输出格式未标准化。不同的大语言模型(LLM)对输出的 “可控性” 差异显著,部分模型即便在提示中有明确结构要求,仍不按规定格式生成响应(如特定标题、仅返回多项选择答案等)。所以,将指标设计与模型可控性更好地匹配,对准确量化模型性能十分关键。
2、深入剖析模型行为模式:
不同模型生成文本的风格各异,有的简洁,有的详细。以医疗诊断建议生成任务为例,应通过大量实验和数据分析,观察模型处理患者症状信息的方式,以及输出诊断建议时的逻辑和信息详略。对于简洁风格的模型,指标设计可降低对内容全面性的权重,侧重关键信息准确性;对于冗长且可能冗余的模型,设计专门指标衡量信息有效性和相关性,避免评估受影响。
3、强化提示工程与指标关联:
提示是引导模型输出的关键,优化提示工程能增强模型输出的可控性,使其与指标设计更好契合。设计提示时要充分考虑目标指标,比如评估文本准确性,提示中可要求模型依据权威医学指南或研究得出结论,并在指标中考量引用来源可靠性;在结构化病历生成任务中,提示里明确病历各部分格式要求,指标中设置格式合规性评分细则(如字段完整性、数据类型正确性等),让模型明确输出要求,也为评估提供清晰依据。
4、动态调整指标权重:
模型在不同任务和场景下表现不同,固定的指标权重难以精准评估其性能。在医学影像诊断辅助任务中,识别罕见疾病的模型,因误诊或漏诊后果严重,应提高准确性指标权重;常见疾病初步筛查任务,则可适当增加诊断效率指标权重。通过实时监控模型在各类任务中的表现数据,利用机器学习算法自动调整指标权重,实现指标与模型实际表现的动态匹配,提升评估科学性。
5、引入多维度评估指标体系:
单一指标难以全面反映模型性能和可控性,需构建多维度评估指标体系。除常用的基于文本相似性指标(如 BLEU、ROUGE、BERTScore)外,还应纳入领域特定指标。在医疗文本生成评估中,引入医学知识准确性指标,检查模型输出是否符合医学专业知识;引入临床实用性指标,考量生成内容对实际临床决策的帮助程度。根据不同维度指标的重要性赋予相应权重,综合评估模型性能,确保评估结果能准确体现模型在医疗应用中的实际价值和输出可控性。
6、利用对抗训练优化匹配:
对抗训练可增强模型鲁棒性和可控性,助力指标设计与模型更好匹配。在医疗问答任务中,生成包含误导性信息或模糊表述的对抗样本,训练模型准确识别并正确回答问题。在指标设计上,增加对模型在对抗样本下表现的评估,如抗干扰能力指标,衡量模型面对对抗样本时输出的准确性和稳定性,实现指标与模型可控性的协同优化。
完成上述优化后,引入基于事实的指标(如 SummaC、FActScore),更好地量化模型输出的正确性。通过收集临床医生的直接反馈,探索 LLM as-a-judge 方法,对模型输出进行更细致评分,使其更符合现实临床需求和偏好。
基准测试本身也有待进一步扩展。可引入更具专业性的数据集以更深入地覆盖 MedHELM 中的所有 121 个任务。纳入更大规模的模型套件(如 Deepseek-R1)进行评估,从而更全面了解不同模型在医疗应用中的性能表现。
MedHELM 评估框架为医疗应用大模型研究打下基础,其初步成果展现不同模型在医疗任务中的特性,明确后续研究的挑战与方向。未来随着各方协作推进研究,医疗应用大模型有望取得显著进展,推动医疗行业智能化升级,为全球健康事业带来创新方案。
#MedHELM 评估框架 #医疗应用大模型 #模型性能 #指标设计 #模型可控性 #基准测试 #医疗智能化 #GPU#GPU 服务器 #高性能服务器 #PC 集群 #液冷工作站 #大语言模型 #LLM#开源大模型 #DeepSeek R1
评论