吕军教授实录 2:重症数据挖掘研究思路分享
导读
2024 年 11 月 14 日至 17 日,历经为期四天的激烈讨论和跨学科合作,由中国人民解放军总医院医学创新研究部主办的第五届“医疗大数据学术交流及 Datathon 活动”在北京圆满结束。本次活动汇聚了来自全国各地的临床专家、数据科学家、人工智能专家、临床工程人员以及企业界创新人士。通过丰富的讲座、研讨和实践环节,参会者深入探讨了医疗大数据与人工智能的前沿应用,展示了跨学科合作在医疗领域的巨大潜力与创新成果。
本次活动中,暨南大学附属第一医院临床流行病学教研室主任吕军教授以《重症数据挖掘常用临床研究设计及成熟范式》为分享主题,紧密结合临床工作的实际需求,深入浅出地阐述了重症数据挖掘的“秘籍”。此外,他还对相关的数据库资源进行了详细介绍,并通过具体的研究案例,进一步增强了讲解的实用性和说服力,为与会者提供了宝贵的参考与启示。
分享嘉宾 吕军教授
吕军,研究员,博士/博士后导师。现任暨南大学附属第一医院临床流行病学教研室主任,临床研究管理办公室/临床研究设计部主任、临床研究方法学学科带头人。同时兼任中华医学会临流和循证分会循证学组委员,中国康复医学会循证康复医学委员会副主任委员,中国医促会循证医学分会常务委员,中国医药教育协会医药统计专业委员会委员,广东省护士协会大数据管理分会会长,广东省计算机学会大数据专业委员会委员等职。致力于创新系列医学大数据挖掘的关键技术,已建立起系统的临床研究入门及临床数据挖掘培训体系,已发表研究论文 300 余篇,其中第一作者和通讯作者 SCI 论文 200 余篇,总影响因子>1200,ESI 高被引论文 7 篇,ESI 热点论文 1 篇,CNKI 三高论文 4 篇,累计被引次数 8000 余次(单篇最高 1037 次),H 指数 40。2023 中国医院高产学者排名全国第 6(同舟云学术排名),2024 年度“全球前 2%顶尖科学家”。
以下为第二部分实录分享内容
由浅入深,吕军教授分享重症数据库“研究秘籍”
接下来,我为大家总结一下数据挖掘的思路。在数据库中,我们可以获取患者的干预信息、临床结局、疾病信息以及临床表征。这些信息之间两两关联,为设计多样化的研究课题提供了丰富的素材。这便是数据挖掘的核心理念,一旦掌握,便能自如地构思并设计自己的研究项目。对于初学者来说,可以从简单的设计开始入手。随着时间的推移和经验的积累,再逐渐深入。我们团队也总结了一套重症数据挖掘的“秘籍”,由浅入深,适合不同阶段的学生学习和应用。
1 纯描述性研究
纯描述性研究指的是无需统计分析,仅通过直观描述来展示信息。以我们团队在 2019 年于《药理学前沿》(Frontiers In Pharmacology)上发表的一篇文章为例,探讨呼吸机相关性肺炎(VAP)患者的感染源及抗生素使用的特点。我们仅从横断面数据中筛选出 VAP 患者,也没有采用复杂的统计方法,仅通过简单的图表来展示结果。统计对社会的影响往往体现在这种基础性的描述和分析上,可为其他医院在面对类似诊断不清的情况时提供一定的参考。
2 危险因素分析研究
这是一篇关于危险因素分析的研究,旨在探讨脓毒症患者的特征指标与临床结局之间是否存在关联,并特别关注了性别这一因素。该研究采用了回顾性队列研究的方法,主要统计方法是生存分析和 Cox 回归分析。Cox 回归分析是识别危险因素和保护性因素的有效工具,它能够帮助研究者确定哪些因素对临床结局具有显著影响。研究结果主要通过一个森林图来展示。通过观察森林图,研究者可以清晰地看到哪些因素对临床结局具有正面或负面的影响,为临床诊断和治疗提供有益的参考。
3 回顾性队列研究
以我们团队在 2022 年发表的一篇回顾性队列研究文章为例,该研究探讨了支气管镜检查对 ICU 呼吸机相关性肺炎患者预后的关系。回顾性队列研究作为一种常见的研究类型,在我们的研究中被广泛应用。在深入研究之前,我们广泛阅读了学术界的类似研究,并发现了一个普遍适用的规律。我们将其形象地称为“三板斧”策略:
两组比较表。在回顾性队列研究中,通常涉及两个队列(也可以是多个队列),要么依据干预分组(有无某种干预措施),要么依据暴露分组(有无某种暴露因素)。我们通过制作两组比较表,来展示基线资料及其他临床特征指标群的差异。这是构建文章框架的第一步,至少需要一个基线资料比较表,根据临床知识可进一步增加其他特征指标群的表格。
绘制两组生存曲线或累积风险曲线。生存曲线展示随时间变化的生存概率,而累积风险曲线则展示随时间增加的风险。这两种曲线都能直观地反映两组之间的差异。在我们的研究中,无论是原始数据还是经过倾向性评分匹配的数据,都清晰地显示出支气管镜检查组患者的生存曲线相对更优。
回归结果分析。这是文章的核心部分,通过回归分析来验证之前的假设。值得注意的是,在大数据研究中,我们通常会采用多种方式进行回归分析,并筛选出关键自变量进行重点展示。在我们的研究中,构建了多达 12 个回归模型,但因篇幅所限,只展示了关注自变量(是否进行支气管镜检查)的结果。
综上所述,通过这三板斧策略,我们成功构建了文章的主框架,并验证了支气管镜检查对 ICU 呼吸机相关性肺炎患者预后的积极影响。当然,在构建文章框架的基础上,我们还可以根据研究需要添加更多内容。对于初学者而言,建议先从这个简单而有效的策略入手,逐步深入学习和掌握更多复杂的研究方法。
4 诊断预测模型研究
以我们团队在 2021 年发表在《医学前沿》(Frontiers of Medicine)上的一项研究成果为例,主要构建了一个针对尿路感染患者发生脓毒症风险的诊断预测模型。该研究属于横断面研究范畴,我们采用了逻辑回归这一统计方法进行分析。通过该模型,我们得出了一个列线图,用于直观展示预测结果。该模型的 AUC(Area Under Curve,曲线下面积)值大于 0.7,表明其预测性能基本达标,同时 Hosmer-Lemeshow 检验(HL 检验)的结果显示模型的校准度也是合格的。
5 预后预测模型研究
这一模型源自我们团队 2021 年《心肺》(Heart & Lung)上的一篇文章,它关注的是冠脉粥样硬化患者在接受冠脉旁路移植术后的生存预测。这是一个典型的纵向研究,因为它涉及到了患者的随访数据。该研究采用了 Cox 回归来构建临床预测模型,这是当前学习临床预测模型时不可或缺的基本技能。该模型的结果在这里我们通过列线图和 C 指数来简要呈现,测试集的 C 指数为 0.767,表明其预测性能是达标的。模型能够预测患者一年、两年、三年的生存概率,并得益于 MIMIC 数据库与社保库的紧密关联,我们得以跨越住院期间的限制,追踪并分析患者出院后的中长期生存状况。
篇幅有限,相关方法有所删减,想要了解更多可至和鲸微信公众号咨询,点击这里留言领取。
我们团队近年来一直采用上述的这些方法组合,从不同角度研究问题,产出硕、博士论文的质量比较高,且发表的 SCI 论文数量质量也较高,通常都能顺利毕业。理论上,学会一种方法可以硕士毕业,学会三种方法可以博士毕业;实际上,由于内卷和某些人对公共数据库的抵触情绪,这是明显不够的,我们就要升级配置:硕士按博士安排,学会 3 种方法,博士按两个博士的工作量安排,掌握 5-6 种方法,并产出相应的研究成果,这样才会比较稳妥。
这些“招式”是由浅入深的,那么,高级招式就一定会赢吗?答案并非绝对。因为除了招式本身,“内力”也至关重要。
在科研领域,内力指的是我们的综合科研能力,包括课题设计能力、问题分析能力、数据处理能力、结果分析能力以及临床应用能力等。要提升内力,就需要多发表论文,尤其是高级别的论文。因此,我们在学习招式的同时,也要注重内力的修炼。只要内力足够强大,即使使用最简单的招式也能取得胜利。
对于经验丰富的研究者来说,使用 MIMIC 提取数据仅需几分钟到一两小时。完成数据提取后,立即进行清洗。接下来是数据处理,这主要是编写代码的工作,就像我之前提到的那些“招式”,本质上都是通过代码实现。你需要哪个“招式”,就直接用相应的代码来处理。当然,也存在一些例外情况,比如集成学习可能需要中型服务器 72 小时的独立运行时间,但大多数情况下,数据处理都能在几分钟内完成,最长也不过两三个小时。因此,我们必须抓紧时间撰写文章,因为这项工作最好不要拖延,否则就会错失良机。
本文内容已做精简,如需获取专家完整版视频实录,请点击这里留言领取。
科研团队的“研究利器”:ModelWhale 科学分析平台
Datathon 活动是一项以短期高强度、跨学科小组竞赛为形式的实践活动,专注于利用临床数据开展创新研究。今年的活动设置了临床洞察挑战和多模态融合创新两个赛道,吸引了 236 名选手组成的 23 支队伍积极参与。这些队伍中,既有来自医院及医学院的 128 名临床医生,也有来自其他单位的 108 名算法工程师、生物统计师、医疗大数据工程师等。
在为期 2 天的激烈竞赛中,各团队基于临床数据库及研究变量进行数据提取、分析及模型应用,为其科研课题赋能。和鲸凭借其 ModelWhale 全新子产品——科学分析平台为本次活动提供全程支持。
ModelWhale 科学分析平台是专为科学分析人员量身打造的云端协作工具,适用于各类研究型业务场景。平台集成了各领域丰富的科学分析工具资源;同时以其开放性、无缝衔接性以及智能特性,助力团队高效构建、沉淀标准化且流程化的科学分析工作流,极大地提升了团队整体研究效率,推动医疗、气象、地质、地震、高端制造、空间科学等各行业研究与实践应用迈向新高度。
助力科研医工协同新范式
开创性引入全方位协作框架,精细编排临床科研项目流程,无缝链接临床医生、生物统计专家与算法工程师等科研核心力量。临床医生专注于科研洞察与临床验证前沿;生物统计师深耕研究设计严谨性与分析策略优化;算法工程师进行模型构建与算法实践。借助 ModelWhale 科学分析平台,实现团队智慧结晶的高效整合与动态管理,共筑科研协同创新的坚固桥梁。
了解 ModelWhale 如何助力 Datathon 活动的科研医工协作
阅读更多:https://mp.weixin.qq.com/s/Qji21mZj-Mm1tqJQEI2yVA
分析流程标准化
精心打造标准化数据分析模板与全方位工具库,前者一键封装常规分析流程,科研人员仅需输入数据参数即可快速获取结果;后者则汇聚多样专业工具,特别针对基因研究等领域提供定制化解决方案。此举大幅削减重复性劳动,提升科研效率。同时,深度优化科研项目流程,提炼关键节点与成功案例为标准化作业指南。和鲸就已赋能上海申康医院发展中心,通过提供标准化、可复用的分析模板、自定义组件、封装的分析 flow 以及 Notebook 支持等功能,助力生物统计师与临床医生实现高效协同研究。
点击这里,了解 ModelWhale 如何构建协同研究的高效工作流
阅读更多:https://mp.weixin.qq.com/s/nZjSWnB1H2pYxVq7QhEQjA
创新科研组织建设与人才培养体系
构建全方位、分层次的人才培养蓝图。针对实践经验匮乏者,设立基础技能强化训练营,强化数据处理、分析及编程能力;针对研究方法短板,举办实战案例 Workshop,通过真实案例深度剖析,将业务难题转化为科研动力。同时开展主题竞赛,以赛促学、以赛促创,激发热情与活力,营造数据素养文化,打造高素质数据人才队伍。和鲸已通过“101 数智领航计划”,为多所高校及研究机构等提供丰富的交叉应用型人才培养路径。以北京中医药大学为例,和鲸携手北中医共建的健康医疗人工智能实验室,从教学-科研-竞赛三方面,帮助学生能够以更低的门槛参与 AI 创新,并促进学校科研成果向产业应用的转化。
,了解 ModelWhale 如何助力医学+AI 实验室建设及创新人才培养
阅读更多:https://mp.weixin.qq.com/s/aCwhnXfTUYuSLfZ2vnCT3w
您可点击这里,免费探索 ModelWhale 更多功能
若您对文中产品、案例或活动感兴趣,可至和鲸科技官网(Heywhale.com/about/101) 了解,或关注 ModelWhale 微信公众号联系我们咨询。
评论