厦门大学站回顾|大模型时代的联邦学习
4 月 27 日,由「厦门大学安全智能计算实验室」发起,联合「隐语开源社区」、「福建省智慧城市感知与计算重点实验室」共同举办的「厦门大学 x 隐语开源社区 Meetup」圆满收官。本次活动由厦门大学信息学院副教授罗晔主持,来自厦门大学、蚂蚁集团、锘葳科技及隐语社区贡献者们围绕大模型时代的联邦学习展开了学术探索研究、产业落地、社区贡献实践等多维度分享。分享后,分享嘉宾与来自厦门大学的同学们及厦门当地企业的参会用户与进行深度沟通与交流。
温故而知新,精彩干货分享来啦~
精彩内容回顾
《可信联邦学习与行业大模型应用初探》
范晓亮 数字福建城市交通大数据研究所(厦门大学)常务副所长
范晓亮老师从隐私保护与价值发现的困境出发,引入可信联邦学习价值基础算法探索,并介绍其团队在该领域所探索的理论成果和技术实践,并介绍在联邦学习大模型的最新成果及在全域交通感知上联邦学习大模型实际应用。最后,范老师还表达了希望和蚂蚁集团、隐语团队共同探索联邦学习大模型的未来期望。
《隐语联邦学习框架及联邦大模型安全探索》
黄炜 蚂蚁集团算法专家
黄炜分享了隐语团队对联邦大模型的探索,从现阶段联邦大模型存在的包括恶意服务端会窃取微调参数并从中推断客户端的数据等问题出发,提出了联邦大模型参数可控的分布式训练,主要目标是使得任何参与方都无法获取联邦通信参数。并详细解读了提出的两个可行解决方案的核心设计思路与具体模型效果,成功解决了大模型联邦学习训练过程中参数泄漏带来的安全风险。
《面向长尾数据的联邦学习》
卢杨 厦门大学信息学院助理教授
卢杨老师通过浅显易懂的案例提出了数据不平衡所带来的问题,从而引出长尾学习的概念和其发展历史。联邦学习的数据异构也会引发类似的问题:在联邦学习中,长尾数据会使得客户端的数据不平衡和全局数据不平衡是不一致的,且基于隐私保护,客户端无法知道全局数据存在不平衡。卢老师介绍了其团队在这一领域的探索成果,通过借助一小部分从客户端收集的平衡数据,训练 FedAvg 模型的每一个组件,从而提出了 CReFF 方法,首次克服了联邦学习场景下的长尾数据所带的问题。在此基础上,卢杨老师团队基于预训练模型 CLIP,提出了 CLIP2FL 方法,更进一步解决了面向长尾数据的联邦学习的问题。
《医疗场景下的联邦学习技术探索与实践落地》
孙琪 杭州锘崴信息科技有限公司算法科学家
联邦学习在医疗科研领域具有广泛应用前景,但是在具体场景中也存在一些挑战。单细胞 RNA 测序(scRNA-seq)的出现彻底改变了我们对生物组织中细胞异质性和复杂性的理解。日益严苛的隐私法规以及 scRNA-seq 数据集庞大而稀疏的性质限制了我们对细胞的高效识别。锘崴科技算法科学家孙琪介绍了其团队开发的 scFed 技术框架,该框架可以在确保隐私安全的前提下对数据进行分析评估,其准确度与传统的中心化模型相当,展现了联邦学习在隐私保护和协作生物医学研究方面的潜力。接着,锘崴科技产业研究院院长李帜向大家介绍了锘崴科技及其和隐语团队的合作。
隐语社区贡献者实践分享
本次活动也有来自厦门大学的同学们分享了在隐语社区的开源贡献与学术研究结合的成果。厦门大学信息学院本科生翁燕冰分享了其和厦门大学信息学院安竹琳同学在罗晔教授的指导下,基于隐语进行的本科毕设项目《基于 SecretFlow 实现联邦学习策略算法 FedPAC》的项目进度及收获。厦门大学信息学院硕士生黄逸桐、陈雨帆分享了其在隐语开源共建计划(OSCP)中,参与贡献「在 SecretFlow 中实现经典联邦策略 & 个性化联邦策略」的实现过程,并表达了参与开源贡献使其从理论到实践都有了实质性进步,并深化了对隐私计算和联邦学习的认识,领悟到其和隐私保护之间的紧密联系。
隐语开源社区欢迎更多开发者
隐语开源社区期望不断努力输出更多优质内容,同时,非常欢迎更多开发者以「参与隐语社区活动」、「PR 贡献」、「自发组织社区活动」等各种形式参与到隐语开源社区中。
欢迎加入隐语开源社区大家庭,与隐语及社区的每一位成员共同成长~
添加 隐语小助手 Calor(微信号:SecretFlow04),了解更多关于隐语开源社区。
评论