解放军总医院医学创新研究部刘晓莉:数据实战 Datathon 活动的价值意义及多学科如何一起开展
导读
2024 年 11 月 14 日至 17 日,历经为期四天的激烈讨论和跨学科合作,由中国人民解放军总医院医学创新研究部主办的第五届“医疗大数据学术交流及 Datathon 活动”在北京圆满结束。
本次活动汇聚了来自全国各地的临床专家、数据科学家、人工智能专家、临床工程人员以及企业界创新人士。通过丰富的讲座、研讨和实践环节,参会者深入探讨了医疗大数据与人工智能的前沿应用,展示了跨学科合作在医疗领域的巨大潜力与创新成果。
在本次活动中,刘晓莉博士以《数据实战 Datathon 活动的价值意义及多学科如何一起开展》为题,分享了她在多次 Datathon 比赛中的个人经验与收获。她强调了跨学科团队协作以及研究内容迭代和更新的重要性。同时,她还分享了相关的比赛经验,鼓励参赛者制定合理计划、利用资源并保持开放的学习心态,以推动跨学科研究的进步。
分享嘉宾|刘晓莉
解放军总医院医学创新研究部工程师
毕业于北京航空航天大学生物与医学工程学院,生物医学工程专业博士。读博期间在麻省理工学院计算生理学实验室进行联合培养,研究方向为围绕急危重症救治场景开展健康状态的评估、动态监测和不良事件的早期预警、便捷化辅助决策支持工具研发等。发表学术论文 25 篇,第一作者和共同一作 8 篇,SClQ1 区文章 10 篇。申请发明专利 9 项,授权 4 项。协助举办”解放军总医院-麻省理工学院医疗大数据研讨会”4 次。
以下是实录整理内容
01 个人经验与收获 &跨学科团队合作
首先,我想从个人的角度谈谈参与 Datathon 活动所带给我的收获。2016 年,我们首次在国内举办 Datathon 的时候,我还是一个对技术充满好奇却知之甚少的参与者。在那次活动中,团队中一位技术精湛的专家仅在一夜之间便完成了临床专家提出的复杂需求,这一经历不仅激发了我对数据科学的浓厚兴趣,也促使我踏上了系统学习的征程。
此后的数年间,我通过持续不懈的学习与实践,逐渐成长为团队中的核心成员,并在 Datathon 比赛中屡获佳绩。随着经验的积累,我有幸担任比赛的指导老师,并参与到比赛的策划与组织工作中,这些经历无疑为我打开了更广阔的视野。可以说,Datathon 活动不仅是我个人技能提升的加速器,更是我涉足医疗大数据与人工智能研究领域的敲门砖。
在参与历届 Datathon 比赛及后续的学习历程中,我有幸与众多杰出的导师携手合作。他们展现出的专业素养与严谨治学态度,对我产生了深远的影响,更为我开启了通往更高水平研究的大门。同时,我也因此结识了一批志同道合的朋友与合作伙伴。Datathon 比赛不仅促进了我的个人成长,更让我在此过程中收获了无数珍贵的友谊。
在这个过程中,学习是永恒的主题。我们要打开自己的感官触角,去学习和感受每一个细节,从而不断提升自己的能力和见识。与此同时,我也深刻体会到了跨学科团队合作的重要性。一个稳定的跨学科团队能够汇聚不同领域的智慧和力量,共同解决复杂的问题。而要想组建这样的团队,就需要我们具备开放的心态、充分的交流和思想的碰撞。
02 科研课题与实践
我也一直在推进博士课题,我的课题聚焦于疾病预测模型的构建,通过参与比赛,我不断迭代与优化了我的预测模型研究方法。
自 2022 年 6 月以来,我的一项研究持续不断地经历了更新与完善。在这个过程中,我始终在思考如何精准地提炼出一个具有临床指导意义的课题,如何开展针对预后效果的真实世界研究,以及如何组建一个坚实且多元化的跨学科合作团队。我深刻认识到,研究的迭代与优化是不可或缺的一环。随着新数据的不断出现和研究成果的变化,研究内容必须灵活调整并精益求精;同时,新方法的诞生或新需求的出现,也使得研究的深度与广度不断得到拓展与提升。
这一过程中,《英国医学杂志》 (British Medical Journal,下文简称“BMJ”)发布的预测模型指南给了我很大的启发,帮助我更好地梳理了研究问题、数据准备、模型开发和评估的整个流程。这种持续优化和迭代的模式,不仅提高了研究的质量,也让我能够更好地应对研究中的各种挑战。
03 比赛经验分享
在比赛中,我们不仅要制定合理的计划、明确目标,还要创建团队文档以跟踪进度,确保每一步的清晰明了。同时,还要充分利用好指导老师和资源工具的支持,及时沟通和反馈问题,开展团队协作并共享代码,具体来说:
针对比赛本身,要制定一个既科学又切实可行的计划。这要求各队不仅要明确目标,更要创建一份详尽的团队文档,以实时跟踪进度,确保每一步都清晰明了。鉴于比赛时间的紧迫性,如何在数据提取与模型构建之间找到最佳平衡点显得尤为重要。各队应避免因过分投入某一环节而忽视了整体项目的进度,而应灵活调整,确保项目顺利推进。面对挑战时,及时沟通、迅速反馈、强化团队协作,并共享代码资源,是提升效率的关键。例如,在数据提取与模型构建之间,团队可预先规划数据整理后的格式,并据此先行开展模型构建工作,以实现时间与资源的优化配置。
与此同时,与指导老师的紧密沟通与资源利用同样至关重要。在比赛期间,导师将提供全方位的指导与支持,各队应充分利用这一机会,及时与导师交流团队存在的问题与进度。通过深入讨论,评估方案的可行性与创新性,明确数据集的支持范围,以及是否应采用多中心研究策略或聚焦单一数据集。此外,充分利用提供的资源与工具,如平台操作指南、数据库介绍文档,以及 GitHub 等平台上丰富的开源代码,将极大地助力各队提升工作效率。
从宏观角度出发,各队在正式比赛前还需深入思考更为长远的内容,这将直接影响研究的可持续发展。这包括研究方向的长期规划、数据集的拓展潜力、以及技术创新的可持续性等方面。通过全面审视这些因素,各队将能够制定更为稳健的研究计划,为比赛的成功奠定坚实基础。
04 相关文章及工具分享
下面是一些文章和工具的分享。
首先是 BMJ 于 2020 年发布的一篇文章,它聚焦于患者利益的持续学习及 AI 研究,围绕透明性、可重复性、伦理和有效性等方面提出了 20 个关键问题。即便时至今日,这篇文章依然具有极高的参考价值,提醒我们在开展研究时需全面考量。例如,在起始阶段,我们应首要明确:哪些是与患者利益密切相关的核心健康问题?算法的开发是否遵循了临床研究与流行病学研究的最佳实践指导?进入研究阶段,我们应关注数据的适用性,即数据是否能准确回答临床问题,是否真实反映了相关数据及事件的本质,以及在细节和质量上是否满足研究需求。此外,在可重复性、影响评估及实施等环节,同样存在诸多需慎重考虑的问题,它们均是衡量最终研究质量不可或缺的重要指标。
最近, BMJ 发表了一篇关于临床预测模型的重要指南。这篇指南明确指出,尽管临床预测模型在现代临床实践中扮演着至关重要的角色,但已发表的相关研究却普遍存在严重的方法学局限性。
这篇指南以系统性的方式,为研究人员提供了开发和评估临床预测模型的全面指导。其中,涵盖了从定义目标和用户、选择数据源,到处理数据缺失等一系列关键环节。这篇文章特别强调了现有研究在多个关键领域内的不足。具体而言,包括不恰当地对连续结果或预测因子进行分类、过度依赖数据驱动的截断点、采用单变量选择方法、过拟合问题,以及对缺失数据、模型性能及临床效应的评估缺乏足够关注。在充分考虑这些因素后,文章给出了以下 13 个关键步骤,旨在帮助研究人员更加科学、严谨地开发和评估临床预测模型。
这 13 个关键步骤中,第 6 步“考虑样本量”尤为关键。我们需要审慎估算样本量,以确保研究的质量,并达成预期的研究结果。同时,第 11 步“执行决策曲线分析”往往被忽视,但它对于评估预测模型的临床效益至关重要。而第 12 步“评估单个预测因子的预测能力”则是一个可选步骤,但它有助于我们更深入地理解模型的预测机制。
在模型性能评估环节,我们要充分利用预测评估风险工具,系统性地评价模型开发和验证过程的可信度。这一工具涵盖了参与者代表性、预测变量适当性、结果定义准确性及统计方法恰当性四个核心方面。这四个方面也是决定模型能否在临床实践中得到应用的关键因素。
最后,开发临床预测模型不仅需关注模型本身的构建,还需对模型性能进行充分评估。通过遵循科学的开发流程和严谨的评估标准,我们有信心开发出更加准确、可靠的临床预测模型,为医疗决策提供更加有力的支持。同时,也希望借此 Datathon 活动鼓励广大研究人员积极参与相关研究,携手推动医学研究与临床实践的不断进步。
本文内容已做精简,如需获取专家完整版视频实录,联系我们领取。
评论