解放军总医院医学创新研究部刘晓莉分享实录(下):常见开源生物医学数据集简介
导读
在解放军总医院举办的第五届“医疗大数据学术交流及 Datathon 活动”会前培训班上,临床医生学习如何综合多源、多模态的数据进行诊断、预后评估及制定治疗方案。
本篇实录为刘晓莉博士分享下篇,聚焦国内外常见开源生物医学数据集,以帮助更多参与 Datathon 活动及临床科研工作者打下坚实基础。
目录
Part 2 国外开源数据库/集介绍
2.1 MIMIC 数据库总览
2.2 elCU-CRD| AmsterdamUMC| HiRID| SICdb| INSPIRE
2.3 MIMIC-IV Waveform | VitalDB | DREAMT
2.4 MIMIC-CXR | VinDr-CXR | CheXpert | BRAX
2.5 UK Biobank
2.6 Global Burden of Disease
Part 3 国内开源数据集/库介绍
3.1 EHR for critically ill patients from ED & PIC database
3.2 China Health and Retirement Longitudinal Study, CHARLS
分享嘉宾 刘晓莉
解放军总医院医学创新研究部工程师
毕业于北京航空航天大学生物与医学工程学院,生物医学工程专业博士。读博期间在麻省理工学院计算生理学实验室进行联合培养,研究方向为围绕急危重症救治场景开展健康状态的评估、动态监测和不良事件的早期预警、便捷化辅助决策支持工具研发等。发表学术论文 25 篇,第一作者和共同一作 8 篇,SCl Q1 区文章 10 篇。申请发明专利 9 项,授权 4 项。协助举办”解放军总医院-麻省理工学院医疗大数据研讨会” 4 次。
以下为实录分享内容
Part 2 国外开源数据库/集介绍
接下来我会介绍一些通过开源数据集,以及我们在这一次 Datathon 活动中会用到的一些多模态数据。首先我会介绍国外开源的数据集和数据库,分为以下 6 个方面,着重会以 MIMIC 数据库的由来和发展作为一个重点进行介绍,其他的就会比较概括性地进行介绍。
2.1 MIMIC
MIMIC 数据库由两位实验室负责人 Roger G. Mark 和 Leo Anthony Cell 带头,并由 Alistair johnson,Tom Pollard,Benjamin Moody 进行主要开发维护工作。新知识的产生以及新型临床工具的创造都离不开相关数据的支持。开放的数据能够加速这一进程,反之就会减缓甚至阻碍其发展。麻省理工学院(MIT)的 Roger G.Mark 教授在 2003 年成功申请了 NIH 项目的一个重要支柱,该项目名为“重症监护中的数据模型与推理整合”,旨在开发和评估先进的 ICU 病人监测与决策知识系统。为了开展这些工作,首先需要构建一个数据档案。该档案应能收集反映真实 ICU 环境的临床数据,如波形数值等,从而为研发更先进的监测与决策算法提供支撑。此外,这些数据还可支持重症监护领域的回顾性研究,并最终向研究社区开放,以激发更广泛的创新研究。该项目主要由 MIT 的 Roger G.Mark 教授领导,同时得到了美国波士顿的贝斯以色列女执事医疗中心(BIDMC)的临床医生、IT 部门以及飞利浦医疗的积极参与和协作。
BIDMC 医院凭借其出色的信息系统软件和硬件支持,为该项目的持续发展与长期延续奠定了坚实基础。该医院拥有长达 40 年历史的高质量信息系统,其 IT 部门及负责人对 Roger G.Mark 教授的工作给予了大力支持。此外,ICU 所采用的监护设备来自飞利浦。MIMIC 数据库整个构建流程始于获得 IRB(机构审查委员会)的批准,随后从医院获取数据并转移至 MIT。这些数据经过组织整理,形成了数据库的形式。为确保隐私安全,数据进行了去隐私化处理,并将详细信息以文档形式记录,随后上传至 PhysioNet 平台。用户通过认证后,即可获取 CSV 格式重组的数据。值得一提的是,PhysioNet 平台也是由 Roger G.Mark 教授主导创建的。大多数开源的生理或临床相关数据均可在 PhysioNet 上找到。自 1999 年建立以来,PhysioNet 一直免费向研究人员提供生理信号库及处理工具等资源,极大地方便了相关领域的研究工作。

这张图直观地展示了 MIMIC 数据库的详细构建流程。它融合了 BIDMC 医院的信息系统数据、通过 metavision 系统、外部信息系统等获取患者出院后的信息。这些数据经过格式转换,统一存储在 MIMIC 数据架构中,并经过去隐私化处理。随后,数据被分门别类地存储于不同的模块中。由于 MIMIC 数据集是开源的,用户能够持续使用并提供反馈,经过多轮版本迭代,数据库不断完善,变得更加友好。

下面这张图表概述了 MIMIC 数据库的发展历程。2011 年首次发布之后,MIMIC 已经历了多个版本的迭代。最初的版本基于医院当时的业务系统 CareVue 构建,记录了 2001 年至 2008 年间超过 26,000 名成年患者的数据,涵盖了临床数据和采样率为 125HZ 的生理波形数据。到了 2016 年,MIMIC-III 发布,在此期间,医院的业务系统变更为 metavision,因此 MIMIC-III 整合了这两个业务系统的数据,数据范围扩大至 2012 年,包含了超过 5 万名成年患者和 7,000 多名新生儿的信息,MIMIC-III 主要整理的是一个临床数据库,包括结构化和文本数据。

随后在 2019 年发布了 MIMIC-IV-CXR,这是一个包含胸片放射学报告及相关放射学报告半结构化文本的数据库,记录了 2011 年至 2016 年间从急诊科进入的 65,000 多名患者的 37 万多张影像图片。MIMIC-IV 最早于 2020 年发布,截止 2024 年 7 月已迭代至第三个版本。考虑到用户对最新数据的关注以及数据维护的便捷性,MIMIC-IV 并未纳入 CareVue 的数据,而是专注于 2008 年至 2019 年(最新更新版本纳入 2019 年至 2022 年数据)的数据整合。因此,MIMIC-IV 涵盖了更广泛的时间段和更多患者的数据(包括 COVID 期间),总人次超过 54.6 万,其中 9 万多名患者曾入住 ICU。
此外,MIMIC-IV-Note 版本在 2023 年发布,包含了 14 万多名患者的 33 万多份出院总结报告和 23 万多名患者的 200 多万份放射报告。2023 年 9 月,MIMIC-IV-ECG 发布,涵盖了 16 万名患者的 80 多万份 ECG 诊断报告,其中十二导联数据的长度为 10 秒,采样频率为 500HZ。2024 年 1 月,MIMIC-IV-ECHO 发布,涵盖了 2017 年至 2019 年间 4,000 多名患者的超过 50 多万次超声心动图检查记录。
从纵向时间历程来看,MIMIC 自 2011 年至今数据量持续扩增,数据类型也从结构化数据扩展到波形、文本和影像等多种模态。同时,其覆盖范围也从 ICU 扩展至急诊科和普通病房。因此,MIMIC 成为众多相关研究青睐的数据集,能够支持用户进行深入且时间跨度长的研究。
如何使用 MIMIC 数据库呢,首先我们需要访问其官方网站。官网右下角的这张图片展示了 MIMIC-IV 数据库的不同模块及其相关数据。这些数据经过了规整,来源于多个方面,包括 MIMIC-IV-core、MIMIC-IV-Hosp、MIMIC-IV-ICU、MIMIC-IV-ED、MIMIC-IV-CXR、MIMIC-IV-Note 和 MIMIC-III 等。为了更全面地了解 MIMIC 数据库,有两个地方是不可或缺的:一是 PysioNet 上对 MIMIC-IV 的介绍,二是发表在 Scientific Data 上的对该数据集更为详细、系统性的介绍。

接下来,我们具体看看官网上对各个模块的介绍。以 MIMIC-hospital、MIMIC-ED、MIMIC-Note、MIMIC-CXR 为例,官网会提供这些模块所提供信息的简短概述。同时,右侧的图会通过箭头指示来展示这些数据之间的关联性,包括信息流转和患者来源的群体。以 Hospital 模块为例,它包括了 omr、provider、admissions、EMR、diagnosis 等相关的表;而 ICU 模块则包括 chartevents,icustays,input/outputevents;ED 模块则包括 triage table,vitalsign table 等信息。

当我们具体查看某一个表时,以住院表(admission table)为例,它会提供关于患者进入医院的相关信息,每一次单独的入院都有一个唯一的标识码,即 hadm_id。这个表还提供了患者的出入院信息、人口统计学信息以及入院类型等详细信息。同时,这个表与其他表之间也有关联,如以 patients 为例,它是以 subject_id(可以理解为患者的身份证号)为关联。在使用住院表时,有一些特殊情况需要注意。例如,对于某些器官缺陷的患者,他们可能在入在医院去世。因此,这类患者的住院时间可能非常短,有时甚至会出现负的住院时长,他们的死亡时间往往早于入院时间。

为了更深入地了解住院表及其相关数据,我们需要仔细阅读官网上的表格介绍。这些介绍通常包括表中各列的数据类型、含义以及可能的取值范围。例如,subject_id 和 hadm_id 都是整形字段,且为非空值,hadm_id 还有特定的数值范围。同时,表中还会详细说明各个时间字段的具体含义,如入院时间等。官网上的介绍还会强调一些重要的入院类型,包括急诊、观察、直接入院等。通过了解这些类型,我们可以更好地理解患者的入院情况和医院的服务流程。
为了直观地认识数据集,我们可以查看一些具体的案例。例如,一名患者因心脏骤停进入 ICU,然后在普通病房接受手术,手术后,患者再次转回 ICU,并最终康复回家。在这个过程中,医院会采集患者的生理生化指标、干预措施以及生命体征等数据。在查看这些数据时,我们需要认真分析要观测的数据的时间范围。有时,由于患者去其他地方做检查或进行其他活动,某些时间段的数据可能会缺失。然而,这并不意味着我们应该放弃这些患者或盲目排除重要指标。相反,我们应该更加深入地分析数据,以确定是否存在其他相关信息或替代指标。

在介绍其他数据库之前,我想先对 MIMIC 数据库中的另外两个模块进行简要介绍。首先是 MIMIC-IV-Note 模块,它主要包含了两类报告:出院总结报告和放射学报告。这些报告为患者提供了重要的医疗信息。接下来是 MIMIC-IV-ECHO 模块,除了之前提到的影像数据外,它还包含了一些额外的表。这些表详细记录了如何与其他结构化的数据或其他类型的数据在数据库中建立关联,目前关于 ECHO 相关的报告仍在整理中,尚未完全公布。因此目前我们只能获取到少部分相关信息。

2.2 elCU-CRD| AmsterdamUMC| HiRID| SICdb| INSPIRE
接下来,我将概括性地介绍以下几个数据集:eICU-CRD、AmsterdamUMC、HiRID、SICdb 和 INSPIRE。
eICU-CRD 是由 MIT LCP 与飞利浦合作整理发布的远程医疗项目数据集。该数据集于 2017 年发布第一版,2018 年推出第二版。与 MIMIC 相比,eICU-CRD 是一个多中心的 ICU 数据集,具有高颗粒度,涵盖了来自美国 208 家医院在 2014 年至 2015 年间的超过 20 多万份 ICU 住院记录(实际住院患者人次为 13.9 万)。

AmsterdamUMC 数据集则是欧洲第一家为促进科研和改善医疗护理而对外开放的 ICU 去隐私化数据集,其去隐私化处理同时满足美国和欧洲法律规定。该数据集来源于阿姆斯特丹大学医学中心和阿姆斯特丹自由大学,涵盖了 2003 年至 2016 年间七张表中的 2 万多名患者,记录了近 10 亿条临床观察结果。HiRID 数据集来自瑞士苏黎世联邦理工学院和伯尔尼大学医院的数据库。与 MIMIC 和 eICU-CRD 相比,其热度较小,但 HiRID 的亮点在于以 2 分钟/次的高时间分辨率存储,涵盖了 2016 年至 2018 年 6 月间 3 万多名住院患者的记录。

SICdb 数据集来源于奥地利萨尔茨堡总医院和帕拉塞尔苏医科大学,涵盖了麻醉和 ICU 期间超过 2,7000 次的住院记录,时间跨度为 2013 年至 2021 年,涉及 4 个 ICU 单元的数据,该数据集包含更多术前数据,具有高颗粒度,包含 15 亿个数据点。
INSPIRE 数据集则是于 2023 年开源的韩国围手术期数据研究数据集,来源于韩国首尔国立大学医院,涉及 13 多万名接受手术麻醉的患者在 2011 年至 2020 年间的数据,INSPIRE 还包括了患者入院前六个月至出院后六个月的实验室检查结果。

2.3 MIMIC-IV Waveform | VitalDB | DREAMT
在介绍完以 MIMIC 为主的 ICU 表格化数据(包括文本和 Echo 数据)后,接下来将介绍其他模态的数据,特别是生理信号的波形数据。首先是 MIMIC-IV 的波形数据,但目前 MIT LCP 只开源了 100 多名患者的 200 多份记录,更多患者的记录将在未来发布。MIMIC-IV Waveform database 主要记录了患者高分辨率的监测数据以及横断面的样本数据,该数据集记录的波形类型包括心电图、光电容积描记信号、呼吸、有创和无创血压等。

VitalDB 与前面提到的 Inspire 数据集来源于同一个实验室(即韩国首尔国立大学医院),因此这两个数据集可以相互关联。VitalDB 包含了 2016 年至 2017 年在韩国首尔国立大学医院接受过常规或急诊手术的非心脏类手术患者的数据,其中处理了 6000 多名患者手术期间的生命体征数据和临床数据。生命体征数据主要是通过麻醉设备记录下来的,包括 12 种波形和 184 种数值数据的轨迹;对于数值数据,其时间分辨率是 1-7 秒,而波形数据的分辨率则是 60 多赫兹到 500 赫兹。此外,VitalDB 还记录了手术期的数据,包括 74 个临床信息参数和 34 个实验室检查结果。该数据集并未进行任何预处理,因为生命体征在实际场景中会受到很多噪声的干扰。这对于开发临床使用的监测算法至关重要,因为原始数据有助于理解手术期间生命体征趋势变化的关联性,并且提供的这些额外信息也有助于解释手术期间生命体征的关系。

下方的三张表格用于详细介绍 VitalDB 数据集的患者群体特征。左侧表格描述了患者群体的基本情况,包括他们接受的手术类型、性别、年龄等人口统计信息;中间的表格展示了不同仪器的型号、生产厂家以及它们能够采集的波形数据类型;右侧的表格则列出了额外的临床数据和实验室检查变量,这些数据主要涵盖了患者在住院期间,特别是在急诊、监护或麻醉时的手术室数据,更详细的信息可以在 VitalDB 官方网站上查看。

接下来我介绍的是一个更偏居家场景的数据集 DREAMT,即实时的睡眠分期评估。这个数据集由杜克大学招募了 100 名参与者,在 2022 年 5 月至 9 月期间收集。他们使用了多个可穿戴传感设备(如智能手表和手环)来采集信号。所用的手环能够采集六种原始信号,包括光电容积脉描记录(PPG)、血压容脉搏(BVP)、3 轴加速度计算(ACC)、皮肤电活动(EDA)和皮肤温度(TEMP)。进一步地,BVP 信号被用来计算心率和心跳间隔。睡眠分期方面,数据集中的标签是由专业的睡眠技术人员进行标注的,详细分为准备阶段、清醒期(W)、N1、N2、N3、快速眼动期(R)以及一些缺失标注(Missing)。此外,为了数据处理和分析的方便,这些数据还进行了降采样处理,频率分别为 6 赫兹和 4 赫兹。以上就是偏生理信号数据集的概述介绍。

2.4 MIMIC-CXR | VinDr-CXR | CheXpert | BRAX
接下来是关于胸片数据集的介绍,我主要介绍四个具有代表性的数据集。
左侧展示的是 MIMIC-CXR,它采用的数据格式是 DICOM 格式,我们可以看到该数据集的样子以及附带的放射学报告,同时为了保护隐私,相关数据都进行了适当处理。右侧展示的是来自越南的一个高质量标签的大型胸片数据集 VinDr-CXR。这个数据集收集了 2018 年至 2020 年间两家越南医院的数据,经过整理后,共挑选出 18,000 张后前位视图的图片;其标注工作由 17 位至少有 8 年经验的放射科医生完成,他们标注了两种类型的标签:22 个局部标签和 6 个全局诊断标签,每个发现都用边框进行了定位。

下方左侧图是来自斯坦福医院的一个较早的胸片数据集 CheXpert,这个数据集收集了 2002 年至 2017 年间来自其住院和门诊的 6 万多名患者的 22 万多张影像学图片,标注了 14 种常见的观察结果标签,该数据集独特之处在于提供了一个标注工具,用于从报告中提取观察结果,并对不确定性进行标识。右侧展示的数据集 BRAX 来自巴西,在 COVID 期间采集了 19,000 多名患者的 2 万多张图片(经过操作保存后共有 4 万多张),这些图片都经过了放射科医生的验证,由于源语言是葡萄牙语,开发者使用了 NLP 技术将其映射到英语,并提取了 14 个标签供使用。

2.5 UK Biobank
接下来我们重点介绍生物样本库,其中最具代表性的就是 UK Biobank。UK Biobank 是一个需要付费使用的数据库,它是英国迄今为止规模最大的关于疾病治疗或预防的基因和环境因子信息资源库。UK Biobank 的建立初衷是为了探究特定基因与生活方式、健康状况之间的关联,从而加深对遗传类疾病(如癌症、心脏病、糖尿病及某些精神疾病)致病基因的理解。该数据库主要涵盖了 2006 年至 2010 年间,从英国各地区收集的 40 至 69 岁之间的 5 万多名志愿者的数据。这些数据包括血液样本、生活方式信息、环境暴露情况等,并且 UK Biobank 还会对志愿者进行长期的跟踪,记录他们数十年的健康档案信息,这使得 UK Biobank 成为基因相关研究领域中非常热门的数据集。

2.6 Global Burden of Disease
最后是全球疾病负担数据集(Global Burden of Disease),这个数据集是由世界银行和世界卫生组织等机构共同发起的免费公共数据库,最近发布了最新版本 GBD 2021。GBD 涵盖了 1990 年至 2021 年间 204 个国家和地区的 371 种疾病和损伤,以及对应的 88 种危险因素的数据。GBD 主要关注流行病学负担数据研究,是一个区域性的汇总,不涉及单个病例数据。因此,我们更多看到的是宏观层面的人数或比例数据,如病伤的发病率、患病率、死亡率、门诊和住院率,以及健康调整的寿命年、伤残调整的寿命年、生存质量、潜在减寿年数等项目指标。GBD 的数据覆盖范围广泛,包括心血管疾病、癌症、呼吸系统疾病和交通事故等。为了便于用户直观探索数据集,GBD 网站提供了 DataTool 等可视化平台,用户可以在官网上注册后,直接在这些平台上进行探索。

此外,GBD 还关注各种风险因素,如某种疾病或伤害的行为风险(如吸烟或饮酒)、环境风险(如空气污染)和代谢风险(如高血压、高血糖等)。它的地理覆盖范围广泛,包括 204 个国家和地区,并考虑了不同的年龄段、性别和时间因素。目前,GBD 主要关注的健康指标包括发病、患病、死亡的人数,以及发病率、患病率、死亡率、伤残调整生命年、健康预期寿命和风险因素归因等,这些数据为全球疾病负担的研究提供了有力的支持。

Part 3 国内开源数据集/库介绍
3.1 EHR for critically ill patients from ED & PIC database
左侧展示的数据集 EHR for critically ill patients from ED 源自浙江省人民医院,详细记录了从 2012 年 1 月至 2022 年 5 月期间被综合 ICU 与急诊 ICU 收治的所有患者信息,包含了超过 7600 名患者的住院记录,总计达到 8000 多次住院事件,全面反映了该时间段内 ICU 患者的收治情况。右侧展示的是 PIC 数据集,与前者有所不同,我们之前介绍的大多是关于成年患者的 ICU 数据,而 PIC 则是一个大型的儿科双语 ICU 数据集。PIC 来源于浙江大学医学院附属儿童医院,主要涵盖了 2010 年到 2018 年期间被任何 ICU 收治的 0-18 岁患者群体,总共涉及 1,2000 多名患者的 1,3000 多次住院记录,中间的附图展示了该数据集的一个患者完整住院期间的相关数据记录,虽然只截取了一部分,但可以看出该数据集的采样频率和生命体征记录是相当高的,右下角的附图则展示了从该数据集开源至今,全球各地区对该数据集访问和使用的情况。

3.2 China Health and Retirement Longitudinal Study, CHARLS
最后,我要介绍的是来自中国的健康与养老追踪调查项目数据集(CHARLS)。该项目旨在收集一套代表中国 45 岁以上的中老年人家庭和个人的高质量微观数据,以分析我国人口老龄化问题,推动老龄化问题的跨学科研究,并为制定和完善我国相关政策提供更加科学的基础。CHARLS 是一个全国的基线调研项目,从 2011 年开始实施,覆盖了我国的 150 多个县级单位和 450 多个村级单位,共涉及 1 万多户家庭的 1.7 万人。这些样本每两到三年会进行一次追踪调查,并在调研完成后的一年对学界开放。目前,已经开放了五期数据,分别涵盖了 2011 年、2013 年、2015 年、2018 年和 2020 年的数据,右侧的附图展示了该数据集的官网,而右下角的附图则展示了这些覆盖的村级单位的分布情况。

CHARLS 自发布以来一直保持着很高的热度,这里我截取了一个公众号统计的数据作为参考,从附图可以看出,横轴代表时间,纵轴代表发表的文章数量。从 2014 年开始,相关文章的数量呈现出了接近于指数级的增长趋势。中间的附图展示了使用该数据集的主要国家,其中中国的比例非常高,其次是美国。右侧的附图则列出了发表过相关文章的期刊。

再详细看的话,左侧的附图统计了大家关注的疾病或症状,如抑郁、糖尿病、睡眠、肥胖、中风等;而中间的附图则统计了大家更关注的群体,如老年人等。这些统计分析结果可以帮助研究者决定如果自己想要做这方面的研究,应该更聚焦到哪一个点上。右下角的附图展示了目前国内哪些医院或机构在研究这个数据集,其中华西医院排在了榜首。

通过 CHARLS 数据集,学界已经发表了许多高质量的文章,这里我就截取了今年的两篇文章作为示例。左侧附图展示的是浙江大学医学院邵逸夫医院的学者在 European Heart Journal 期刊上发表的一篇文章,通过收集三个前瞻性数据库,采用 Cox 回归模型研究了不同虚弱状态的变化与不同心血管疾病风险的相关性;而右侧的附图则是清华大学的学者在 Nature Medicine 期刊上发表的一篇文章,主题是研究热浪对老年人预后或日常生活的影响。

Part 4 使用及研究经验分享
前面几个部分我分别从国内和国外的数据集为大家介绍了相关数据。接下来,我想简单分享一下我在使用和研究这些数据集过程中的一些经验。
首先,我认为用好数据集的官网和发表的文章介绍是非常关键的,这两个渠道会帮助你直观地了解数据集。对于比较出名或高质量的数据集,许多学者和数据开发团队都会提供相应的代码仓库。因此,你无需从头编写代码,可以直接查找并使用相关代码。如果你时间有限,无法深入了解各个数据集,那么你可以阅读综述类文章。这些文章会对数据集进行概括性介绍,帮助你更直观地了解数据集的特点。

例如,上图这篇综述就分析了四个 ICU 数据集(AmsterdamUMCdb、eICU-CRD、HiRID、MIMIC-IV )的异同点,包括它们是否是单中心、以及其时间跨度、患者数量、种族分布、ICU 死亡率等信息,此外,综述还提及了数据集的临床评分、患者疾病严重程度等信息,以 AmsterdamUMCdb 为例,其 SOFA 评分相对 MIMIC 而言就较高。

如果你打算开展相关研究,就需要了解各个数据集的优势和不足。例如,MIMIC 虽然只是来自单中心的三甲学术医疗机构,但其优势是具有完善的代码仓库、数据质量高。eICU 数据集则凭借覆盖超过 200 家医院的多中心特性和庞大的数据量脱颖而出,然而,eICU 数据包括社区医院在内,其数据质量可能存在一定的波动性。此外,不同数据集的患者群体和疾病严重程度也可能存在差异。例如,AmsterdamUMCdb 的患者病情最严重,使用升压药的比例高达 69%,机械通气比例也达到了 83%;而 eICU 的患者群体疾病严重程度相对较轻,死亡率也最低;HiRID 的一个优点是较少被研究人员探索和发表文章,其不足之处在于疾病诊断相关记录的缺失。

我认为,目前单独使用一个数据集来发表高质量文章确实存在一定难度。但如果能够联合多个数据集进行分析,探讨它们之间的差异性或共通性,那么将有望获得更为可信的结果。不过需要注意的是,不同数据集的数据结构往往存在差异,期待随着大语言模型的发展,有学者研究如何将临床数据集与这些模型关联起来,使用户能够更直接地使用。目前,还有一些其他方法可供参考。例如,ricu 包提供了统一的接口,让用户能够分析包括 MIMIC-III/IV、eICU 等在内的五个 ICU 数据集,ricu 包已包含了从这些数据集中提取的 119 项临床指标数据,还支持用户自定义添加其他关注的变量和数据集,并且能够较为容易地融入用户现有的分析架构中。
右侧展示的是一个名为 YAIB 的 Python 包。由于当前许多人工智能模型难以复现,这主要是因为数据集和代码往往不公开,同时模型的队列定义、预处理及训练设置等也难以复制,这些问题使得即便模型在发表时性能卓越,但在其他数据集上的验证和外推性仍面临严峻挑战。YAIB 包作为一个模块化框架,旨在解决这一问题。它允许研究人员复现和比较不同的 ML 实验,提供了一个从队列定义到模型评估的端到端解决方案,并支持模型的开发、训练和评估。目前,YAIB 已支持包括 MIMIC-III/IV、eICU 等在内的多个数据集,并易于适应新的自定义数据集。

另一种方法是利用 BlendedICU 数据集,它采用了 OMOP(Observational Medical Outcomes Partnership)架构。这个架构可以看作是一个桥梁,能够将来自不同数据库的数据源映射到一个统一的数据架构上,从而便于进行分析。研究团队利用 OMOP 架构对多个数据集进行了整理,最终形成了一个涵盖超过 30 万人次、跨越 13 年、涉及三个国家的大型数据集,包含了 41 个时间序列变量和 31 种活性成分暴露时间相关的变量。

以上是我在进行多个数据集分析时所使用的一些包或工具,供大家参考。
2024 年第五届 Datathon 医疗大数据活动上,和鲸凭借 ModelWhale 数据科学协同平台,为本次活动 236 名选手、23 支队伍提供了全程支持。ModelWhale 成功构建起临床医生、生物统计师与算法工程师等核心科研人员的协同链路:临床医生可聚焦于科研问题挖掘及临床验证;生物统计师专注于研究方案的科学设计与分析方法筛选;算法工程师着力于数据处理、模型搭建与算法落地。借助 ModelWhale 平台,能将三方的研究进程与成果予以有机整合与有效管理,构建起高效协同生态。
您可点击这里,免费探索 ModelWhale 更多功能。本文内容已做精简,如需获取专家完整版视频实录,请联系我们领取。
评论