临床研究方法学,到现场,到数据真实发生的地方 | 对话数智 x 张维拓
从医学数据中挖掘作用于人的价值,让 AI 的判断嵌入到临床诊疗流程中。
和鲸科技《对话数智》栏目邀请了临床研究方法学专家,上海交通大学医学院临床研究中心的张维拓老师,分享其对于数据科学在临床研究应用现状与趋势的观察和见解。
受邀人丨张维拓
上海交大医学院临床研究中心 副研究员
采访人丨殷自强
和鲸科技 执行总裁、首席产品官
访谈纲要
01 数据驱动与问题驱动
——“临床研究不能仅仅去满足人类的好奇心”
02 导航员和驾驶员
——“把方法学认为规范的东西,都做在平台里”
03 两种视角的人才培养
——“理解数据背后发生的事情”
04 临床研究的成果转化
——“让临床医生不需要花太多精力把手里的模型变成网上可及的产品”
05 模型:迭代与可解释性
——“不能只看技术本身,要看技术对人的影响”
06 选择临床研究这个方向
——“作为生命去理解、去感受,再去判断”
01 数据驱动与问题驱动
“临床研究不能仅仅去满足人类的好奇心”
殷自强:我们知道张老师的工作是和医学人工智能相关的,其实我们很关心数据科学技术目前在医疗领域的应用情况。
张维拓:数据科学的方法,跟传统医学研究的方法,是一个互补的关系。两者首先肯定是存在一定区别的,数据科学是 "data-driven" 数据驱动的研究范式,先有数据,再看要做什么;而医学研究更关注问题驱动,就是会先问想知道什么问题、临床需要解决什么问题,再看哪里有数据可以用。
它们也有各自的优缺点。问题驱动能知道问题的重要性,但是想找到对应的数据很困难;而数据驱动是尽管从数据中找到了很多问题,但它可能在临床上没有价值。
殷自强:科学研究是想要去找问题然后有新的发现,那二者既是互补,又有各自优缺点,在实际实践的时候应该如何结合呢?
张维拓:我个人的观点是,临床研究和一般的科学研究,本身就是不一样的。一般情况下,科学研究追求的是增加人类的知识,但有时候并不会考虑得那么功利,就是这个知识到底有什么用。比如研究火星、研究银河系,可能在可见的绝大多数人类的范围内都是没有太大用处的,但因为人类天生有好奇心,所以只要它是新的,科学本身就是有价值的。
临床研究不一样,它的价值导向很强。临床研究跟一般的科学研究最大的不同在于,它需要一种特殊的材料,就是人。临床研究的过程需要一个真实的患者先接受干预、接受改变,然后才能收集患者的信息,看有没有得到改善。在这个过程中,患者是要承担一定风险,也要做一定配合的。
那这里就涉及到了很明显的伦理问题,患者是来就医的,为什么要好端端地配合你的好奇心参与研究,对于他们来说,健康才是第一位的。我们平时的科学研究只是花钱,而临床研究中,患者是有一定健康风险也需要做出配合的。所以临床研究不能仅仅去满足人类的好奇心,既然让患者去做这样的配合,就一定要让患者有健康受益。
这就回到了刚刚的问题,二者怎么结合,我认为还是以问题驱动为主导。当你不能确定研究的价值在哪里,患者的受益在哪里的时候,研究操作本身的伦理性就是成问题的。当然如果有些利用的是回顾性数据,基本不会出现额外成本的时候,也是允许大家做一些探索的,但一样,这个探索一旦要转化成临床上可以应用的东西,还是需要让患者参与,这个时候就一定要考虑对患者的 benefit 在哪里。
02 导航员和驾驶员
“把方法学认为规范的东西,都做在平台里”
殷自强:所以定义问题是以问题驱动为主,那解决问题呢?比如像张老师您这样的临床研究方法学专家,或者再大一点,数据科学家,在实际临床研究的过程中,是如何与临床医生协作的?
张维拓:临床医生和数据科学家,二者的分工可以用合作驾驶来比喻,临床医生是导航员,数据科学家是驾驶员。目的地在哪里,中间要路过哪里,都是根据导航员的指示,由导航员说了算的,而驾驶员需要做的是,帮助导航员合规地驾驶车辆到达目的地,包括判断某条路具体怎么开。
临床研究本身总体可以分成三个大的阶段:研究开始前的准备阶段、研究进行过程中的阶段、和研究结束后的阶段,包括成果发表、转化等等。
研究开始前,大家要讨论研究方案到底怎么做,一般是临床医生先提出问题,然后方法学专家去审核这个方法的科学性,从规范层面完善方案。有些执行的人员,我们叫做质量控制人员,比如 CRC(Clinical Research Coordinator,临床协调员)、CRA(Clinical Research Associate,临床监察员)、药剂师等等,都要从自己专业的角度去一起审核方案。另外因为临床研究涉及到人的问题,所以还涉及到一些伦理法规方面的事情;还有关于执行的过程是否可行,就需要一线的操作人员来看。等大家一起讨论完之后,PI(Principal Investigator,主要研究者)签字,才能通过方案。
然后就是研究整个执行的过程,临床医生、所有参与人员都会去动态地观察数据的采集,判断会不会出现各种问题。临床医生更多关注的是采集过程中的安全事件,比如患者有没有不良的风险,而我们则更多关注数据质量,看是不是有数据的偏移,是不是和原先方案中的设计一致。
到了最后的阶段,大家就会一起讨论数据、写论文。临床医生负责去阐述它的临床意义,而我们负责统计分析的部分,这就是我们整个临床研究的流程。在这个过程中,我们和医生是需要有非常密切的交流的。
殷自强:那是每一个临床研究都会有这样一个配合关系吗?打个比方说,出远门确实可以搭伴,但如果只是需要去几百米开外,临床医生是不是就有可能自己开车过去。临床医生有没有可能自己去掌握一些方法去做临床研究的探索,这一块的现状目前是怎么样的?
张维拓:有,而且非常多。中国现在方法学的专家是非常紧缺的,从临床研究的人员配比来说,我们认为一个方法学专家同时支持 5 到 10 个项目,基本上已经是极限了,但实际临床研究项目中,能够真正配到专业的方法学专家的,数量非常少。所以中国目前来说,绝大多数的临床研究项目,就是临床医生在自己开车,那这里面不可避免会涉及到他们自己可能做得不太规范的地方。
所以目前像你们在做的低代码洞察平台这样的东西,我们期望它能尽可能降低医生自己开车的难度。临床研究中对医生的期望本来就是只要会导航就可以了,开车的事情是交给我们专业的方法学人员的,只是现状是方法学人员很紧缺,或者有些问题很简单,所以医生可以自己开一段。
我们希望能把开车这件事变得简单,比如医生只要摁一下,车就能往前开了。我们也希望把我们方法学认为规范的东西,都做在平台里,能让即使是一个没有太学过的人,在得到这些工具辅助的时候,产出的东西也是基本符合方法学规范的。相当于他虽然没有学过交规,但是他知道这个车要靠右开。这样一个是会提高临床研究整体的产出效率,另一个也能提高中国临床研究的整体质量。
03 两种视角的人才培养
“理解数据背后发生的事情”
殷自强:我们希望临床医生能够自己多开点距离,那他们肯定至少要了解一些方法学相关的方法,国内现在对于临床医生在方法学上的培养,是一个怎样的现状体系呢?
张维拓:学校里目前其实是没有这种专业,也没有成体系的课程的。医生虽然会学很多统计学知识,但问题是真正去操作临床研究的时候,面对的问题很多并不是这种理论性上的。
比如说临床研究肯定需要患者参与,那应该怎么去跟患者沟通?如果患者做了一半以后又不想继续参与了,操作流程应该是什么?患者不想继续参与研究,会导致数据缺失,但临床研究对于缺失数据的处理,和数据科学中对于缺失数据的处理,是很不一样的。
数据科学中看到一个缺失数据,我们想的是怎么用各种各样的算法去补,但在真实的临床研究中,不同原因造成的数据缺失,处理的方法都是不一样的。有的患者是因为治疗了一段时间以后,觉得效果不好,跟医生说“医生,我觉得不行,我要走了”,造成的数据缺失;有一些是觉得治疗得太好了,跟医生说“医生,我觉得我已经没病了”,过一年再来复查他也觉得完全不需要,造成数据缺失。
这两种在数据里看到的都是缺失,但不是做一个回归插补,用均值插补就能解决的。它牵涉到了对于造成这个缺失背后的临床现象的理解,这是需要临床医生来判断的。所以临床医生一定要去关心这些事情,这些在教科书里是学不到的,必须要去真实地操作这个过程,才会有感觉。
殷自强:理解,就是一定要在实践中去学习。那如果当前临床医生的培养体系需要一定周期,比较困难,是不是对于方法学专家人员的扩充和培养,就会是一件很重要的事情。在过去的这些年里,中国数据科学发展得特别快,产生了大量的数据科学人才,有没有可能让这些人去参与到这个流程里面?
张维拓:这也是解决问题的另外一种思路。我们中国目前培养的和临床研究方法学最接近的学科,是在公共卫生里面的预防医学。但如果跨学科过来,比如从 data scientist 过来的,也会遇到很多障碍。
他们当然有自身本来很强的技术背景,但是要做临床研究的话,其实要转变很多观念,比如我一开始说的伦理意识。数据科学经常是拿到数据以后就开始分析,但在临床研究中,拿到数据这件事就不是特别容易,它涉及到了获取有没有得到患者同意、过程是否合规、数据中哪一些是涉及隐私的、哪一些是可以用于分析的,等等。
另外还要有临床意识,就是要知道哪一些分析在临床上是有意义的,哪一些是没有意义的。
接着还要意识到,数据里面观察到的现象,和临床中发生的现象,中间是有 gap 的。数据科学中最早有个口号是“data talks”,数据是会说话的,但我做了这些年,发现数据不但会说话,也会说谎,“data lies”。你在数据中看见的事情,和临床实际发生的事情,是有很多区别的,一些真正的、最有意义的现象,不会体现在数据里面,比如我刚刚说的患者脱落的问题。
所以一个数据科学家,如果真的想要进入医疗行业,是需要做很多深度介入的,要去理解行业背后发生的事情。比如说我们去做一个临床研究的项目,首先会整个读一遍这个学科、或者这个疾病病种相关的现行的指南;然后我们也会跟医生去聊在这个过程中,医生最关注的部分在哪里;甚至我们还会去他们对应的门诊,比如外科手术的手术室旁,看整个过程。
很多现象,只有你理解了它是怎么产生的,才会理解某些数据的变化到底是什么。有时候你以为你从数据中发现了一些很精妙的事情,但事实上它的解释很有可能是你完全意想不到的;有些你以为是数据上的重大发现,其实完全不是。
殷自强:那是不是对临床医生来说,降低方法学的门槛比较重要,对于有数理背景的人来说,把临床知识更抽象地表达出来会更重要?
张维拓:我觉得这个总结挺好的,两边确实都需要一定的抽象。对于临床医生来说,最好能把各种各样的方法抽象成功能性的黑箱,就像我们用的电器,只要知道它的功能是什么,输入和输出都是什么就够了,那临床医生就能去很好地运用它,并由方法学家支持箱子里面发生的事情。而对于技术工程人员来说,也需要一定的抽象能力,但他们需要先具象、再抽象,需要先真实地、深入地去体验临床场景,再把它们抽象成各种技术问题。
04 临床研究的成果转化
“让临床医生不需要花太多精力把手里的模型变成网上可及的产品”
殷自强:临床研究的过程确实是比较复杂的,那在经过了临床医生、方法学专家那么困难的支持下,临床研究最后产生的成果,它的表现形式,或者说载体,一般是什么样的呢?
张维拓:临床研究成果的表现形式,或者说转化方式,一般情况下可以分成这么几类。
首先是论文,临床研究结果的报告可能会以论文的形式发表。
接着我们希望论文能产生的效果是改变指南,因为指南相当于是医学界的一个公认文件,里面任何一句话都是有很多临床研究去支持的,只有更好的治疗才会被放到指南里。所以任何一个新的药物、一种新的医疗器械、或是一种新的手术方式,背后一定是有人做过了临床研究并证明这个方式确实比其他方式好,才会把这句话写进指南里。这也回到了之前我们说的,评价一个临床研究价值最好的方法就是,看做完这个研究之后,它的结论会不会改变医生的行为,最好的标准就是看指南里有没有写上这一句话。
另外附带的一些其他产品,包括相关专利、新上市的医疗器械、上市的新药,是可以拿去卖然后转化成一定经济受益、社会效益的,这也是我们国家生物医药产业发展的一个重要来源。
还有第三类,也是一种比较新的表现形式,叫做数字医疗,是大数据发展后产生的新的医疗产品形态。它是在一个模型、一种软件,或者一个智能硬件上产生的为医疗提供服务的形态,背后很多都是基于大数据分析产生的模型。
殷自强:模型这样的概念对于搞数据科学的人来说可能是比较容易理解的,但对于临床医生,或者医疗领域其他相关的人,想去应用模型好像还是很困难,现在是怎么把医学模型给到各个参与方去应用的呢?
张维拓:这确实是目前临床研究成果转化过程中的一个瓶颈,很多临床研究产生的模型在经过论文发表后就停在我们自己的计算机里了,要拿去用很困难。和上市产品相比,我们的模型每回使用,都要先自己把计算机打开,再把图片从医疗设备里导出来,可能还要打开代码界面,input image 跑完,才能出结果。没有人会真的在临床的工作中干这件事。
所以从研究过程中获得的模型,要变成一个真正在临床上可以用的工具,其实有一个产品化的过程,其中可能包括了要把模型放在云上,相当于在任何地方都能 access ;其次需要对模型做个封装,因为要防止模型本身或者数据本身的泄露;接着还有用户的管理,哪些人可以 access ,哪些人不可以 access ,那就需要有个用户界面;甚至还要打通一些数据链路,比如说怎么让数据从医疗设备上到模型的服务器上等等。只有把这一连串的步骤全部完成以后,才可以把电脑里的模型变成临床上可以使用的工具,这肯定是医生自己干不了的。
临床中其实有挺多这样的模型,它不一定大到可以变成一个上市产品,上千个中可能只有一两个需要打包让药监局认认真真地评审,有很多过程可能仅仅是在医院的特定科室里面使用。所以有个现象是你可能在论文中看到了一个不错的模型,但找不到去哪使用。现在网上可及的,可以被用的模型,数量非常少。
殷自强:明白,因为我们平台里其实刚好为研究者有这样一个设计——当你开发出一个模型,可以很方便地把它 apply 成一个网页应用。研究者不需要再去画网页,也不需要重新部署、重新打开镜像环境,它是所有人都可及的,比如科室里的人打开网页,把数据输入进去,就能得到模型的预测结果。这个网页应用现在被正常地应用在数据科学领域里,后面我们也会期待,它可以在临床研究中起到价值。放大成果本身的价值,是我们一直希望做到的。
张维拓:如果你们能把这个过程做得比较自动化,让临床医生不需要花太多时间精力就能把手里的模型变成一个网上可及的产品,当然不一定所有人都可及,他自己或者他所在的医院可以先在网页上 access 的话,我觉得这会是大家都非常需要的一件事情。
05 模型:迭代与可解释性
“不能只看技术本身,要看技术对人的影响”
殷自强:我们刚刚讨论了模型的托管跟部署,但模型还有一个很大的特点,它是不断迭代的,想请问一下张老师,在医疗领域里面,模型的迭代有什么特点和特色呢?
张维拓:我们知道机器学习、人工智能方法生产的模型有一个很大的特点,就是需要大量的数据投入训练,并且数据越多,理论上来说模型的 performance 会逐步提高。所以如果不允许模型迭代,很大程度上可以说是浪费了这类方法最大的优势;但是如果进行迭代,在监管方面就会涉及到很多问题。
临床研究是重证据的,生产模型是一回事,证明模型有效又是另外一回事。模型肯定是在一个有限的环境、有限的医院,采集到了数据以后开发出来的,要上市那就要证明这个模型可以适用于各个地方,就要经过一个非常复杂的评估过程。假使评估完后上市了,需要进行模型迭代,那如何去判定迭代后它依旧是 work 的呢?从理论上来说它已经变成了一个全新的东西。重复一遍评估流程,这个成本代价是很高的。
所以在临床研究中,数据量更大的模型,训练效果会更好,这是一定的吗?其实很多时候不是的。因为最开始进行模型训练的时候,拿到的一定是最高质量的数据,而后来迭代的时候,数据很有可能是从各个地方收集到的,质量肯定不如原来的。所以当数据量变大的时候,模型其实不一定会变好,或者说我们不能不经过验证就去假设它一定会变好。
殷自强:了解,这其实是用人工智能的方法可能会导致的问题,那张老师可以再给我们举一些其他的例子吗?
张维拓:是挺多的,最典型的比如说一些 AI 模型提供的医学影像的辅助诊断,其实已经有一些上市产品了。但是新技术引入的时候,不能只看技术本身,要看这个技术对人的影响。
人和 AI 是要共同做决策的,这就会产生很多不确定性,究竟是以人最终主导,还是以 AI 最终主导,还是以某种方式去综合呢?那就需要 AI 提供更多信息,我们叫做 AI 的可解释性。除了提供最终判断以外,如果 AI 还能提供它是怎么做出这个判断的,那这时候医生就可以逐项地去核对到底是哪里产生了不一致。
其实医生实际做判断的时候,能获得很多 AI 不具备的信息。AI 只能看见图,但医生可能会知道另外一些事情,比如说患者的家族史、患者的生活习惯、之前的病史等等。如果 AI 给出判定肿瘤的解释是因为某块地方有个什么病灶,而医生查了病史以后知道这个不是肿瘤,是另外的东西,就可以排除掉 AI 可能犯的一些错误。
所以从这个角度来说,当 AI 真的要和人类医生相结合的时候,两边都需要做很多努力。AI 需要去适应人类的思维,解释一些人类想知道的东西;人类也需要去理解 AI ,但一定不能把 AI 当作是一个神,产生了不一致就觉得 AI 一定是对的,不能这个样子,要理解 AI 大概的能力范围在哪里,最后还是靠人类医生去做判断。
06 选择临床研究这个方向
“作为生命去理解、去感受,再做判断”
殷自强:怎么把 AI 结合到医疗里面,其实还是需要不断摸索的,既要懂 AI 背后的一些原理,又要懂临床,所以其实是很需要像张老师这样的人才投入其中。我知道张老师是有数理背景的,能否介绍一下你之前的学术经历,以及为什么会选择临床研究这个方向呢?
张维拓:我之前主要是学数学和物理,其实也做过挺多方向的 data scientist 该干的活,包括天文类的比如天体物理的预测、行星上的天气预报,也有金融的预测,还做过社交网络。但我后来仔细考虑了一下自己的职业发展方向,觉得还是往 data scientist 和医学的角度去切入比较合适。
有几个原因。一个是我们做数据科学的,很多时候会问自己,做的分析到底产生了什么影响。我觉得医学研究可以很放心的一件事是,你知道自己在做一件对的事,它可能在这个行业领域里面的贡献不一定会很大,但至少不是坏事。
第二个就是临床研究给人的反馈是比较及时的。首先在任何一个研究项目刚开始的时候,就能有一个明确的意识——这件事别人想知道、别人非常需要这个结果,而且别人也有用,那就可以很放心地切入,而不用担心一个东西做完以后会被丢在墙角。另外基本上研究做完后的一两年,就能得到相关反馈了,比如说根据结果,患者的生存率确实提高了等等,它会很好地验证目前做的方向到底是不是正确的。
还有另外一个想法是,从长期来看,人的职业发展是要面对很多竞争的。数据科学本身,相信大家都可以感觉到,很多东西会变得越来越标准化、流程化,它渐渐地可能会变成不需要太专业的训练,每个人都能去做的事情。
那什么样的职业相对来说在时间尺度上有更强的生命力呢,我认为是那些需要更贴近人的。在临床研究中,就有很多关于人的价值判断。它不能完全量化,或者说仅仅一个数值指标不能代表对错,需要从人的视角去代入体会,如果你是个患者,遇到这种情况会是什么选择。很典型的比如有些治疗方法,它可以提高生存率,但是会让人极端痛苦,就是有 30%的概率让你多活半年,但在剩下的生命中一直是非常疼痛的状态,这究竟是个好的还是不好的治疗方法?
数据科学是不会回答你的,你必须站在人的角度去代入体会。
殷自强:我很欣赏张老师这个观点,数据科学的发展趋势是一个民主化的趋势,大家会像去掌握英语一样掌握数据科学,所以它的未来一定是标准化和流程化的。那什么是机器所取代不了的呢?是跟人的作用和交互——作用于人身上的价值,只有作为一个生命去感受、去理解,才能够去做判断,临床研究给人的反馈,就是这样一种基于人的价值的反馈。那张老师是否方便给我们介绍一下你现在的研究方向呢?
张维拓:我自己现在主要的研究方向可以分成两大块,一部分是日常研究工作,一部分是我自己更加 focus 的部分。
我们日常的研究工作其实就是帮助临床医生去解决他们的临床研究问题,涉及到新的药物、新的医疗器械、新的治疗方法,它们的临床试验、观察性研究,然后从这些中获得一些临床证据。
另外我自己比较 focus 的是一些创新性的方法学问题,主要就是医学人工智能方向。最典型的有两个方面,一个我叫做偏移问题。医学人工智能的生产过程是依赖于现实世界数据的,而现实世界的数据和真实发生的事情之间又有距离。现实世界中的很多数据实际上包含了我们人类的错误,当再用这个数据去训练 AI 的时候,AI 就是再重复一遍我们人类已经犯过的错误。如果我们想让 AI 去做正确的事,那就一定要 fix 数据和真实世界之间的 gap。
另外一个方面是模型的可解释性,就是当 AI 和医生判断不一致的时候究竟听谁的。理想的情况是,让模型去 say something,然后让医生去逐条 check 。在这个过程中,就需要让 AI 更多地向人类的思维去靠近,让 AI 的判断嵌入我们现在的诊疗流程中,比如在什么节点,AI 提供的 information 是对患者有帮助的,那这个时候就可以真正地去做一个临床上大家都愿意用的产品。
殷自强:我们接触下来,确实有很多数据科学家也会像张老师一样,很希望去做一些领域相关的事情,去做一些能够得到及时反馈的事情,但对他们来说,转型到临床研究确实可能比较困难,张老师能给到他们一些建议吗?
张维拓:想要很好地切入这个领域,需要学习的内容包括了我们前面说的伦理法规,包括了医学、临床中的一些基本概念,包括需要建立临床思维,深入地去参与至少一个临床项目。但这个过程一定不是只单纯地坐在计算机后面,看着数据反复折腾,一定要去到现场,去到数据真实发生的地方,看数据产生和收集的过程,然后去了解你要做的东西是如何在这个场景中发挥作用的。
我觉得这是一件非常重要的事情,也是我切入这个领域来给我最大影响的一件事情。我从一个单纯坐在计算机背后的 data scientist,到现在做临床研究,最大的改变就是在现场感受到了这些东西,然后开始意识到,要把过去学习的所有知识 apply 到一个具体的场景,是真的需要考虑很多真实世界中发生的现象。当有了这个感受,就正式从一个单纯的数据科学家变成一个临床研究方法学者了。
殷自强:我能从张老师的话中感受到这个价值。临床研究对国内医学的发展来说是非常重要的,但是当前的人才现状确实是比较稀缺,无论是让临床医生参与进来,还是让懂数理方法的人参与进来,大家都会有一个 gap,这个问题要被解决。
我觉得从零开始去建立人才培养体系还是不太现实,或者说在短期内很困难,那这时候很重要的就是去建立一个桥梁让大家互相都往前走一步——临床医生怎么去更主动地学习应用方法学的知识,有数理背景的人怎么像刚刚张老师给的建议一样踏出那一步,参与到实际的临床研究项目中,激发自己的兴趣。可能二者在配合的过程中,也就积累起了那最宝贵的一批临床研究的方法学人才。
殷自强. 访谈后记
与张老师的交谈让我十分触动。临床医学是以人为研究对象去提升生命治愈率的学科,方法学是在这个过程中去寻找证据的,数据科学可以帮助整个方法学的发展。但临床研究的知识和数据科学的知识,都存在一定的门槛,因此当前无论是领域的应用还是人才的培养,都面临着很多问题。
我们之前在跟临床研究中心的合作过程中,就是希望能够应用产品去降低知识的门槛,以及成为两种知识之间交流的桥梁。但产品它只能是一座桥梁,更重要的是像张老师号召的一样,无论是临床领域的人,还是有数理方法背景的人,都能够作为开拓者,踏上这座桥梁,一起去探索前方。
-END-
版权声明: 本文为 InfoQ 作者【ModelWhale】的原创文章。
原文链接:【http://xie.infoq.cn/article/3e980dc248e85ef483339a6b1】。文章转载请联系作者。
评论