百度大模型安全解决方案获 WitAwards 2023 年度大奖
11 月 22 日,由 Freebuf 主办的 FCIS2023 网络安全创新大会在上海召开,大会现场正式揭晓 WitAwards 2023 中国网络安全行业评选活动年度八项大奖,百度大模型安全解决方案成功斩获 WitAwards 2023 年度优秀网络安全解决方案奖。WitAwards 中国网络安全行业年度评选活动自 2015 年举办以来今年已是第九届,受到业内广泛关注,历时 2 个月,累计百余个项目申报及提名,经由大众投票、甲方投票、专家投票及现场投票的公平、完善的评审,旨在以最专业的角度和最公正的态度,发掘优秀行业案例,树立年度标杆,促进网络安全产业整体持续健康发展。
随着网络安全呈现出与不同场景深度融合发展的显著趋势,企业对技术如何实践与落地高度重视,安全行业正面临全新的机遇与挑战,大模型技术的迅猛发展,一系列安全风险和伦理挑战也开始浮现。百度大模型安全解决方案,围绕百度大模型安全实践经验,推出以 AI 安全为核心的大模型安全解决方案,从大模型全生命周期视角出发,方案涵盖大模型训练/精调/推理、大模型部署、大模型业务运营等关键阶段所面临的安全风险与业务挑战,提供全流程的包含数据安全与隐私保护方案、模型保护方案、AIGC 内容合规方案、以及业务运营风控方案的安全产品与服务,同时结合以攻促防守的思路建立 AIGC 内容安全蓝军评测能力,对大模型实现例行化的安全评估,助力企业构建平稳健康、可信可靠的大模型服务。
以 AIGC 内容合规为例,百度大模型安全解决方案在大模型训练、大模型部署、大模型业务运营等全生命周期部署构建了五道安全防线:
一、预训练数据过滤
在模型训练之前,通过筛选与清洗,精确剔除低质量语料。百度大模型安全解决方案利用安全召回模型和敏感词库主动减少数据偏见、不准确性及不适当内容,同时删除可能涉及个人隐私的信息,从根本上提升内容质量与安全性。
二、内容干预系统
结合人工审核与过滤技术,百度大模型安全解决方案的干预系统能确保模型输入内容的合规性。系统内置的红线必答和 Query 干预以及安全大模型等功能,能够确保对敏感问题的回答符合安全合规要求,支持客户策略配置,快速引导不安全的输入向合适的处理流程转移,确保大模型不产生有害或不正确的数据。
三、安全分类算子
百度大模型安全解决方案中,用户输入内容经过分类,以判定其安全性和适当性。基于相关业务的经验与技术实践,将输入内容按主题和语义划分,确保能高效识别并过滤掉有害内容,同时提供合规的提示词模板,辅助模型更好地理解和回答问题。
四、Prompt 改写
在面对常见 Prompt 注入攻击(如忽略原本 Prompt、越狱、恶意诱导,涉政负面诱导)等诸多类型,百度大模型安全解决方案,可以构建提供 Prompt 干预/改写服务;即将用户输入的可能会导致大模型输出不安全内容的 Prompt,在保持其初始指令和数据不变的基础上,通过改写 Prompt 的方式让大模型输出安全的内容。
五、输出内容安全过滤
百度大模型安全解决方案对生成的文本内容进行细致的检测和筛选,通过高危词典和语义改写技术,识别并过滤掉有害、不准确、不适当或不合规的回复内容,确保大模型的输出环节安全合规。
除此之外,百度大模型安全解决方案还构建了面向第三方服务厂商的内容安全防护体系,提供 Prompt 审核改写、红线知识库精调及 AIGC 多模态内容审核等服务,确保各类输出内容不违法违规、不违反价值观、无侵权风险,全方位守护 AIGC 内容的安全性与合规性(解决方案更多详情与《大模型安全解决方案白皮书》详见文末“阅读原文”)。
百度安全是百度公司旗下,以 AI 为核心打造的安全品牌,是百度 23 年安全实践的总结与提炼。基于基础安全、数据安全、业务安全、车与 IoT 安全四大产品矩阵,业务覆盖百度各种复杂业务场景,同时面向合作伙伴输出安全产品与行业一体化解决方案,涵盖智能制造、智慧能源、智慧政务、智慧金融、智能汽车等领域,全面探索 AI 时代的新实践、新范式。未来,百度安全也将持续与产学研各界合作伙伴保持合作,共同迎接大模型时代的新机遇、新挑战,共筑大模型安全防线,探索更安全的大模型落地千行百业的无限可能。
评论