中国互联网大会 | 百度智能云千帆大模型数据安全解决方案荣获“金灵光杯”
7 月 9 日,由中国互联网协会主办的 2024(第二十三届)中国互联网大会在北京国家会议中心召开。大会闭幕式上,首届“金灵光杯”中国互联网创新大赛颁奖仪式隆重举行,百度智能云千帆大模型数据安全解决方案,凭借大模型全生命周期的数据安全高效保护,荣获中国互联网协会主办的首届“金灵光杯”中国互联网创新大赛数据安全专题赛二等奖。
首届“金灵光”杯中国互联网创新大赛数据安全专题赛
首届“金灵光杯”中国互联网创新大赛由中国互联网协会主办,聚焦科技前沿趋势和产业发展热点,旨在推动互联网领域的创新发展和技术进步。自今年 2 月项目申报开启以来,大赛吸引了广泛关注,共有 506 家单位报名参赛,参赛项目数量达 825 个。大赛分为专题赛和总决赛两个阶段:专题赛包括“人工智能”、“数据安全”、“数据要素”、“信息技术应用创新”等九大赛道;经过初审和终审,百度大模型数据安全解决方案因其技术创新性、可推广性和经济社会效益,荣获中国互联网协会主办的首届“金灵光杯”中国互联网创新大赛二等奖。
为积极落实《中华人民共和国数据安全法》、《工业和信息化领域数据安全管理办法(试行)》、《生成式人工智能服务管理暂行办法》等数据安全相关要求,防范大模型全生命周期各阶段相关数据安全风险,增强大模型业务开展过程中数据安全综合能力,百度将前沿的数据安全与隐私保护技术与大模型生态相结合,打造出百度数据保险箱产品,为百度智能云千帆大模型客户提供端到端的数据密态管控与数据安全合规能力,覆盖大模型语料数据安全管理、大模型训练数据安全管控、大模型推理安全服务、大模型微调数据安全管理、大模型私有化数据资产保护等大模型全生命周期各个环节。
大模型全生命周期数据安全与模型保护机制
百度数据保险箱包含三种核心能力:
1)基于文心大模型的智能分类分级:依托文心大模型强大的语义理解能力与逻辑推理能力,基于大模型的智能数据分类分级代替基于正则表达式的传统分类分级方案,实现大规模数据分类分级的自动化与智能化,极大提高数据分类分级的效率,降低数据安全合规成本,为分类分级落地实施奠定良好基础。
2)大模型数据全流程密态管理:针对大模型场景下的标注类数据、语料类数据、日志类数据,提供包括 FUSE 文件透明加解密、Parquet 数仓透明加解密、CASB 数据库透明加解密等多种加密方案,从而实现百度智能云千帆大模型数据全流程密态管理,有效管控大模型数据安全风险,避免大模型核心生产工艺和企业机密数据资产泄漏。
3)大模型运行时安全管控:对百度智能云千帆大模型平台基础环境进行数据安全风险评估形成环境清单,为大模型关键程序进行数据安全风险评估形成程序清单,为核心数据资产进行数据安全风险评估形成数据清单,同时基于零信任等数据安全管控理念,为百度智能云千帆大模型平台提供运行时安全管控机制,实现大模型在生产、流转、部署等流程中数据资产、模型资产有效保护。
在人工智能场景下,需要使用大量的数据进行模型的预训练及微调对齐。这些数据主要包括公开数据、企业自有数据、合法的外采数据、自动合成数据及人工标注数据。这些数据一方面会包含企业敏感信息,另一方面数据本身也是企业的核心数据资产。同时,训练模型需要大量的人力、数据、机器资源,模型既是企业的核心资产,也是企业科技实力与核心竞争力的体现,而数据和模型本身,具备天然的可复制性,很容易被内部人员或外部人员窃取,从而导致数据、模型泄露等事件的发生。这不仅会导致核心数据资产的流失,还可能导致企业竞争力下降或者产生舆论事件,被通报或处罚。
百度安全持续在数据安全领域积极探索,落实端、管、云三位一体的数据安全保护理念。基于百度数据保险箱,对内可以实现高价值数据、模型资产的全链路保护,防止企业核心资产泄露;对外在数据出域、模型端侧部署等场景,可以实现数据、模型的「可见不可用,可见不可得」,保证数据、模型处于可控状态,从而实现一体化高价值数据、模型资产保护方案。
百度安全将继续与行业共享技术进步成果,共同治理和验证,进一步巩固和扩大数据安全工作的成果,打造更多行业最佳实践标准和产品,帮助更多企业在数字经济建设及智能化转型中进一步释放数据要素价值。
评论