写点什么

“AI+Security”系列第 2 期(五):大模型自身安全

作者:云起无垠
  • 2024-08-23
    北京
  • 本文字数:12606 字

    阅读完需:约 41 分钟

“AI+Security”系列第2期(五):大模型自身安全


近日,由安全极客、Wisemodel 社区与 InForSec 网络安全研究国际学术论坛联合主办的 “AI+Security” 系列第二期 —— 对抗!大模型自身安全的攻防博弈线上活动如期举行。


在圆桌环节,君同未来创始人兼 CEO 韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI 组负责人宁宇飞、始智 AI wisemodel 创始人兼 CEO 刘道全、云起无垠创始人兼 CEO 沈凯文以及金睛云华技术合伙人孙志敏齐聚一堂,围绕 “大模型自身安全” 展开了深入的圆桌讨论,对大模型安全现状、未来发展趋势以及前景市场等相关问题进行了深入研讨。


期间,作为主持人的刘道全主要与诸位嘉宾探讨了以下六个关键问题。


Q1: 随着大模型在各领域的广泛应用,探讨未来几年大模型安全性所面临的最大挑战,以及科研与产业界应采取的关键措施来应对这些挑战?


韩蒙:当前,大模型的安全挑战初露端倪,我们目前关注的重点包括基础的越狱攻击和数据投毒等问题。随着大模型在各领域的广泛应用,我们可以预见其将面临越来越多的挑战。


在学术领域,大量研究成果不断涌现,每周可能有数十乃至上百篇论文发布。通过推动工程学的进步,我们发现了 AI 领域的众多问题。


我们认为,要解决深层次难题,有必要进行深入研讨。尽管大模型具有强大的黑盒属性,但对于模型机理性和可解释性的研究仍需加强。只有更深入地了解模型产生反应的内在机理,我们才能创造出具有深远影响力和价值的学术成果。


此外,这种深入探究所形成的积累特性,将有助于我们突破单一学术文章的创新要点,切实为大模型在实际应用中的安全挑战提供有效解决办法。例如,我们之前提到的运用传统的逻辑推理以及具有可解释性的人工智能方法,因为在学术界,对人工智能可解释性的追求从未停止。是否存在某些逻辑推理和数理推理的有效手段,能够更好地应对大模型的安全问题?我们觉得这是一个关键的研究方向,需要探索如何让这些方法落地并发挥作用。


宁宇飞:我对大模型的安全性深感忧虑,特别是其幻觉消解度方面。大模型的泛化能力越强,产生的幻觉和偏差或许就越大。随着大模型应用的不断普及,其潜在影响可能会波及多个领域。


以教育领域为例,设想未来学生或下一代广泛使用教育大模型的情形。倘若模型在泛化和幻觉范围之外生成了带有偏见或有害的内容,极有可能给当前的教育环境带来深远的负面影响。因此,大模型面临的挑战不仅在技术层面,还体现在其对社会和文化环境的潜在作用上。在操作和部署大模型之前,我们需要进行深入的红队测试和安全评估。这不仅是为了确保技术层面的安全,更是为了防范大模型可能带来的社会风险。


我们必须清楚,大模型的安全性问题是一个多维度的挑战,需要从技术、伦理、法律等众多角度进行综合考量。唯有这样,我们才能保证大模型的良性发展,并最大程度地减少其可能产生的不良影响。


郑瀚:在我看来,大模型安全问题当下仍处于初级阶段,我们正处于风险不断涌现和暴露的时期。每周都会有新的安全问题浮现,这促使我们对现有的安全体系加以重新审视。


比如,传统的身份认证体系,像即时通讯(IM)和密码系统,已遭遇挑战。近期,一个众所周知的事件是黑客借助 AI 视频技术突破了人脸识别系统,致使价值 300 万美元的资产被盗。此事件彰显了大模型在数据压缩和文本生成能力方面的强大实力,它能够轻松伪造身份,冲破传统的风险控制难题。


身为白帽研究员和产业界产品开发者,我觉得现有的安全体系、协议和机制均需重新思索。大模型的出现给传统身份认证体系带来巨大冲击,安全行业的所有基础架构或许都需要更新。


从科研和产业界的视角审视,大模型安全问题的研究不过是冰山一角。当前,安全社区,包括白帽社区和安全研究员,尚未就这一领域形成充分的共识和关注。我个人正在致力组建 CTF 战队和社区,以促进大模型安全研究的发展。


在产业层面,大模型安全可被视作 OSI 七层协议之上新增的一个 Infra 层,这属于协议层面的范式转移。在这个新的协议层面,诸如自然语言交互协议,当下尚无成熟的安全协议和机制来确保安全。这是一片空白领域,学术界和产业界众多专家和教授均可投入研究,共同探寻解决方案。


沈凯文:随着人工智能技术的迅猛发展,未来的软件系统会愈发复杂。我当下正着力研究 AI 的供应链安全问题,发现了若干新特点。


首先,软件依赖性的增强致使安全问题的影响范畴扩大。例如,一个端点组件的安全漏洞或许会波及众多下游企业。在 AI 生态里,主要的框架数量有限,一旦这些框架出现状况,给整个生态系统带来的损害将极为严重。


其次,伴随 AI 技术的广泛应用,上游的攻击链条愈发脆弱。倘若某个关键环节被投毒或者遭遇攻击,可能引发连锁反应,造成广泛的安全问题。


此外,还有一项有趣的研究发现,攻击者能够通过欺骗 AI 来传播错误信息。比如,一个著名的库在分发过程中,若被污染,可能致使数十万的下载受到影响。这种攻击方式不但影响软件的安全性,还可能给整个软件生态系统带来深远影响。


孙志敏:大模型安全已成为备受瞩目的问题,并在业界获得广泛重视。例如,在近期的 ISC 创新沙盒中,荣膺 TOP1 的项目就聚焦于大模型生成内容的安全性问题。这显示,尽管当下对此领域的关注或许尚不充分,但已在有意识地推动这一议题。


就我们自身的经验而言,大模型安全主要存在两方面的忧虑。其一为准确性问题,即模型给出的回答可能有误。比如,模型可能无法区分 IP 地址 119 和 1191,这在实际应用中可能引发严重的响应错误。其二,是政治、法律和道德方面的问题,特别是文本生成内容可能触及敏感话题,这于商业化应用而言极为危险。

此外,我想提出一些观点以供大家研讨。除了与模型专家和安全专家探讨外,我们也会和实际使用模型的人员交流。有一种看法认为,大模型本身在存储和安全方面仍需强化,若过度强调安全或许会阻碍技术的发展。因而,有人主张先让模型投入使用,随后再逐步解决相关问题。但从功能、效果和性价比的角度来讲,目前大模型尚未达到完全可用的程度。


这种观点在当下可能未被普遍认同,但它确实存在,且值得大家关注和讨论。我们觉得,大模型的安全性问题需要从多个角度加以综合考量,涵盖技术、伦理、法律等多个层面。


Q2: 在信息安全/网络安全领域中,网络攻击以往通常由专业人才实施。当下大模型不断发展,如今所探讨的大模型安全,是否会降低网络攻击的门槛,进而使普通人也能够进行网络攻击?其产生的影响是否会更大?


韩蒙:我个人觉得,相较于供应链安全和传统安全,我们在这方面的专业水平或许有限。我们更多地侧重于模型本身,特别是当身为安全员进行 AI 能力测评之时。


在人工智能安全及其他安全领域,我想要分享两点见解:


1)安全是一个相对的概念,世上不存在绝对的安全。于传统网络安全而言,虽然我们无法定义何为绝对安全,但能明确什么是绝对不安全——存在漏洞即意味着不安全。然而在人工智能领域,即便不安全也并非绝对。例如,若一个模型被要求创作一首诗,却写出完全不合逻辑的内容,我们能否轻易判定其为不安全?在某些情形下,人工智能的安全问题可能与能力问题相互交织,这需要我们这些治理从业者深入思考并予以关注。


2)当人工智能的安全问题与危害并非直接关联时,其可能更多地体现为能力问题。这便引出一个问题:我们应当如何界定人工智能的边界?如何保证人工智能安全的发展不偏离正确的路径?这是一项长期且艰巨的任务,需要我们持续不断地探索和努力。


宁宇飞:我认为安全问题实则与应用场景密切相关。就当下通用大模型的安全性来说,我们所关注的核心问题主要集中于以下几方面:模型的越狱能力、模型输出的准确性与效果,以及这些输出对人类使用度和可信度的影响。


我们作为安全治理的专业人士,主要职责在于确保模型的输出与人类的价值观相一致。这意味着我们需要凭借有效的安全治理举措,引导和监督模型的发展,让其在不同场景中的应用均符合人类的道德和法律标准。

倘若能够达成这一目标,即模型输出与人类价值观对齐,那么除了某些特定场景下的安全问题,许多其他安全问题也将得以修复和解决。这是由于与人类价值观相符的模型,在实际应用中更有可能产生积极作用,降低潜在的风险与误解。


郑瀚:这使我忆起此前读过的一篇北美社会学家的论文,其中提及了“草根运动”(grassroots movement)的概念。这位社会学家在研究中对六十多个不同背景的人群进行了调查,涵盖农场主、安全研究员、工程师等,发现他们皆有一个共性:都曾尝试越狱,且都成功了。


此现象表明,越狱行为已从专业范畴拓展至更广泛的群体。于大模型安全领域,伴随技术门槛的降低,越来越多的人或许会尝试对大模型展开所谓的“tricky”攻击。然而,要成功实施攻击,依然需要一定的方法论与指导,以及工具的效率助力。


当下,我们的 Automatic writing 项目正致力于此方面工作。我们认为,随着大模型安全问题愈发凸显,需要更多的人参与其中,共同探索并解决这些问题。这不仅是技术专家的责任,更需要社会各界齐心协力。

这种草根运动的兴起,既是挑战亦是机遇。它要求我们提供更多的教育资源和工具支持,助力更多的人理解并掌握大模型安全的相关知识,进而提升整个社会的安全意识和防御能力。


沈凯文:就我个人观点而言,有时我会运用马斯洛需求层次理论来剖析安全问题。在个人电脑(PC)时代,人们主要关注的是公司层面的安全,更侧重于合规性,彼时个人安全问题未受到太多关注。然而,随着软件融入我们的日常生活,加之数据量的增多,安全问题逐渐受到重视。


如今,随着无人驾驶等技术的问世,安全问题已上升至关乎生命财产安全的高度,一旦出现状况,后果不堪设想。同样,人工智能(AI)的发展呈现不可逆转之势,其将愈发深入我们的生活,可能以助理的形式存在,知晓我们的诸多信息。


依此逻辑,我们能够发现,随着 AI 与人类的接触愈发紧密,人们对其安全性的敏感度也会相应提升。例如,在上一代 AI 技术中,人们并未过度强调 AI 失控或对人类的影响。但随着 GPT-4 这类高级 AI 模型的出现,人们开始意识到 AI 在未来生活中可能扮演的重要角色,并开始审慎思考 AI 对人类的潜在影响。


依据马斯洛的需求层次理论,随着 AI 技术的持续发展,安全问题会愈发重要,我们对其的关注度也会随之增加。这是一个自然且必然的过程,我们需要认识到这一点,并采取相应举措以确保 AI 技术的健康发展。


孙志敏:我们需要留意两个方面。其一,安全问题常常表现为能力问题。比如在人工智能领域,若一个模型无法正确执行任务,更多反映的可能是其能力欠缺,而非传统意义上的安全漏洞。其二,安全的危害程度取决于应用范围。以 Log4j 漏洞为例,正因其广泛应用,一旦存在漏洞,便可能引发巨大危害。就大模型来说,目前看来其应用范围相对有限。主要体现于两个方面:一是大模型的部署尚未广泛铺开;二是对某个模型的攻击或许仅影响该模型自身,而不会对其他用户或系统产生影响。故而,就当前状况而言,大模型的总体危害不算大。


然而,我尤为担忧的是政治和法律问题,以及监管对社会可能造成的影响。当下,这些问题的严重性或许被过度夸大,实则没有那么严重。这种过度的担忧可能致使对大模型的负向管理,反而有可能阻碍技术的正常发展与应用。


Q3: 鉴于各行各业在利用大模型技术突破传统瓶颈时,有的使用开源模型,有的使用闭源商业模型,而社会各界对开源模型和闭源模型的安全性存在不同观点,有人认为开源模型更安全,也有专家认为闭源模型更安全。针对这一问题,询问各位专家的看法,并探讨企业在使用开源模型和闭源模型时是否有不同的安全关注点?


韩蒙:在探讨大模型的安全性时,必然会涉及开源数据、开源代码以及模型参数权重的定义问题。由于大模型在未来的应用中需与各类场景相结合,这使得模型的开源与闭源问题成为一个复杂论题。


首先,我们要思考的是开源是否比闭源更安全,抑或反之。此问题并无简单答案,因为安全性取决于众多因素,涵盖模型的使用环境与部署方式。例如,在 B 端,企业或许更倾向于采用私有化部署的模型,以守护内部数据和业务流程。而在 C 端,用户可能更关注自身数据是否会被上传至云端,以及数据在云端的处理方式。


从安全性的视角出发,使用云端的大模型与私有化部署的模型皆有利弊。私有化部署可能在某些场景中更受欢迎,因其允许企业掌控数据的存储和处理。然而,这也引发了对数据传输和处理方式的关注。

另一方面,边缘计算的安全性也是一项考量因素。倘若数据无需传输至中心处理单元,那么在边缘设备上进行处理或许能降低数据泄露的风险。


伴随技术的发展和社区的成熟,开放性通常会为创新提供更广阔的空间。对于安全团队而言,如果能够参与到开源方案中,他们便能更深入地理解并强化模型的安全性。不过,当下开源模型的可解释性欠佳,且开源的定义尚不清晰,这让我们难以即刻回答开源与闭源孰更安全的问题。


宁宇飞:对于 B 端用户而言,在考虑使用大模型时,不管是开源、闭源,还是私有化部署,他们主要关注的安全方面为两个:数据安全和结果安全。


在 B 端场景中使用开源模型搭建,能够提供一定程度上的数据安全和结果安全的可控性。用户能够通过筛选和过滤条件保证输出符合预期,进而对数据的安全性和结果的准确性具备一定的掌控力。


但是,如果 B 端用户选择使用商业化的 SaaS 模型服务,他们会面临两大主要问题:其一,无法保证数据不被泄露或滥用;其二,需要投入大量成本以确保 SaaS 服务的输出结果符合其安全预期。这意味着,用户需要对服务提供商的数据处理和存储方式给予充分的信任,并且可能需要采取额外措施来保障结果的安全性。


在当前的环境中,B 端用户使用开源模型或许在安全成本方面更为适宜。这不仅是由于开源模型提供了更高的透明度和掌控力,而且用户能够依据自身需求定制安全措施,从而更有效地保护数据并确保结果的可靠性。


郑瀚:开源与闭源的争论,有时或许会被网络大 V 出于商业化获客的目的而夸大为二元对立的观点。但在我看来,不论是开源还是闭源模型,实际上皆存在安全风险。


闭源模型之所以看上去相对安全,主要原因有二:其一,它们通常部署在云端,以 SaaS(软件即服务)的形式提供,因而背后有企业内部成熟的安全团队进行持续的监控与问题修复。其二,众多 SaaS 化的模型拥有外部的安全防护手段,例如输入和输出的过滤机制,这些防护措施提升了模型的安全性。


举例来说,如果我们直接测试裸模型,如 LLAMA 或 GMM,可能会发觉它们易受攻击。然而,当我们使用闭源模型,如 ChatGPT 或 豆包等,除了内生安全措施外,还采用了强有力的传统内容安全措施,这使其安全水平相较开源模型提高了约 30%到 40%。


不过,即便如此,从安全评级的角度来讲,这些模型依旧存在安全隐患。实际上,不管是开源还是闭源,它们均是商业生态系统的一部分,有些客户因保密原因,可能无法使用 MaaS(模型即服务)API 接口,而必须进行本地化或私有化部署。


所以,无论是私有化部署还是完全 SaaS 化部署,都需要一套成熟的安全解决方案,涵盖但不限于围栏测评等措施。从这个层面来看,开源和闭源模型在底层所面临的安全问题本质上是相近的。


沈凯文:作为一名网络安全专业人士,我赞同我的密码学老师的看法:基础算法应当开源。在密码学领域,已达成一个共识,即开源算法有益于整个生态系统的安全。闭源算法虽在初始阶段增加了分析成本,但若存在漏洞,这些漏洞或许会长期隐匿,不为公众知晓,这对整个生态系统有害。


闭源模型在刚推出时或许难以研究,然而我们依旧能够找出其中的问题。例如,Backos 作为一个闭源项目,并未阻碍研究者发现其问题。这表明,即便项目未开源,安全研究人员仍能发觉并报告潜在的安全问题。


另一方面,像谷歌这样的公司在开源初期也遭遇诸多问题,但随着时间的推移和社区的共同努力,其产品,如安卓操作系统,已变得颇为安全,难以被攻克。这一趋势显示,不管是在 PC 时代还是移动时代,开源都能够加快安全的提升。


我觉得,开源有助于迅速收敛至一个安全的状态。这是由于开源项目能够吸引更广泛的社区参与,从而更迅速地发现和修复漏洞。这也是我作为白帽黑客始终秉持的信念:开源不但促进了技术的透明性,也增强了整个社区对安全问题的反应速度和处理能力。


孙志敏:作为大模型的使用者,我十分赞同韩蒙老师的观点,即大模型的开源和传统意义上的开源并非同一概念。往昔,我们从 GitHub 获取代码时,能够阅读并明白代码的功能及实现。但如今,即便像 LLAMA 这类开源模型,我们拿到代码后仍无法全然理解其内部的工作机制,于我们而言仍是一个黑盒子。


由此角度出发,我觉得开源模型与闭源模型本质上区别不大,因为即便代码开源,我们也难以深入洞悉其内部工作原理,也就无法解决某些根本性问题。


不过,开源模型的确带来了一些益处。其一,开源为我们提供了进行二次预训练或微调的机会,以解决特定问题。其二,开源模型允许我们进行本地化部署,这意味着我们的数据和客户的信息无需像使用 SaaS 或 MOs 服务那样被传输出去,进而提升了数据安全性。


基于上述第二和第三点,我认为开源模型在某些方面是更优的选择。然而,就底层基础的透明度而言,开源并未带来根本性的转变,我们依旧面临无法完全理解模型内部工作的难题。


Q4: 鉴于目前大模型应用蓬勃发展,围绕大模型安全的市场规模、爆发节点预测及重点商业化方向,讨论未来大模型安全的商业化市场前景?


韩蒙:安全行业是一个极具挑战的领域,尤其在商业化方面。尽管客户具备预算,然而多年来,安全产品的商业化程度仍旧较低,有时难以实现价值变现。


对比中国境内外的状况,能够发现技术安全领域技术含量颇高,但变现能力相对较弱。不过,我对中国安全行业的未来抱有乐观态度。我坚信“分久必合,合久必分”的趋势会影响行业的发展。过去几年,我见证了行业的迅速聚集与分裂。在经济繁荣时期,公司企图涉足所有领域,可这种模式难以持续。最终,公司只得解散团队,寻求外部产品,从而造成了供应链的断裂。


在大模型安全领域,伴随经济下行压力的增大,人们开始认识到不可能一个团队或个人无所不知、无所不能。这种认知将推动行业朝着专业化发展,专注于特定环节的深度挖掘,进而在供应链中找准自身的定位。

专注于人工智能安全本身将会带来巨大的商业机遇。不管是基础模型的构建者,还是行业特定模型的构建者,他们均需要人工智能风险的保障。这为人工智能安全提供了契机,通过提供专业服务来为人工智能的构建者赋能。


随着人工智能在各个场景的广泛运用,例如自动驾驶、控制系统、工业机器人等,人工智能安全的需求会持续攀升。这些领域为我们提供了全新的商业机会。要把握住这些机会,我们需要保持耐心、认真的态度,尊重市场及客户,提供有价值的服务。


宁宇飞:我觉得大模型安全领域的市场空间极为广阔,商业化潜力巨大。在安全领域,交付形式主要为两种:产品和服务。然而,从传统安全的视角来看,产品本质上亦可看作是一种服务。


在上一环节的分享里,我提及了红队评估、安全检测服务,以及安全围栏和法官模型等概念。我认为,这些服务于安全场景中的商业应用前景甚为可观。比如,在利用 AI 进行审计和命题的特定场景,极有可能催生大量专注于大模型安全的垂直类服务或产品。


当下,安全市场对这类服务或产品有着强烈需求。这些服务可能涵盖但不限于:


· 红队评估:提供专业的安全渗透测试与风险评估服务。


· 安全检测:运用大模型展开自动化的安全漏洞检测和风险分析。


· 安全围栏:研发用于监控和防御潜在安全威胁的系统。


· 法官模型:构建能够评估安全事件并提供决策支持的智能系统。


这些服务和产品主要会以服务的形式呈现,但同时也具有产品的属性,因为它们为客户提供了持续的价值与支持。


郑瀚:从商业化视角来看,大模型安全在国内主要由合规监管驱动。然而,当我们将目光投向全球市场,特别是与日本、北美、东南亚等地区的客户交流时,会发现大模型安全目前仍处于极早期阶段。


为何会如此?我们不妨回顾 Java 安全的发展历程。在 2016 年前后,伴随 Java 应用生态的兴起以及一些重大安全事件的出现,Java 安全逐渐受到重视,进而形成一个产业。但当下,大模型安全尚未迎来类似的转折点。我们所观察到的一些核心指标,如 GNI 的 APP 渗透率和用户日 PV 增长率,均表明大模型安全仍在等待一个契机。


我个人认为,大模型安全正在等待一个类似“Log4j”事件的出现,此类事件或许会成为资本市场的引爆点或行业的转折点。


当下,我们作为 Chrome 的 IM 社区和 iOS Beta 版本社区的核心成员,正在探究最新版本的 iOS 端侧模型和 Chrome 的安全问题。我觉得,只有当安全问题影响到每个人,引发社会层面的广泛关注时,大模型安全在自由市场的商业化机遇才会真正来临。


尽管目前大模型安全尚在起步阶段,但我坚信未来的大趋势是清晰明确的。当下,传统软件架构与 AI 软件架构的比例或许是二八开,但我相信在未来一到两年内,这一比例可能会彻底逆转,AI 将颠覆传统的软件架构。


沈凯文:安全领域的商业化常常面临一个挑战,即安全价值的显性难题。对于这个行业或学科来说,即使安全工作完成得很出色,高层管理者如 CXO 或 CEO 可能也难以直观地感受到成果,从而致使安全部门的价值难以衡量和考核。


在创业进程中,我们始终在探寻能够在短时间内量化且显性地让客户感知到成果的安全解决方案。大模型的出现为我们带来了新契机。例如,我们当下正在开发的智能代理(agent)类似于数字员工,尤其是在安全检测领域,能够让客户清晰地计算投入与产出。


当客户投入一定成本,比如 50 万,若能挖掘出更多安全漏洞或完成更多检测业务,他们便能直观地看到收益与增长。这种数字化的成果展现,令安全的价值更为显性,客户能够迅速理解并算出投资回报。


我认为,这种价值显性不但适用于国内市场,也同样适用于自由市场。国内市场可能在某些情形下更注重关系,但当客户能够清晰地计算出价值时,不管是传统行业还是其他领域,都会更倾向于投资。


例如,一些传统行业的老板,尽管他们可能对技术不太熟悉,但对成本极为敏感。倘若他们通过简单的计算就能理解投资的回报,就会更愿意投资。安全行业在创业时,需要找到此类场景,让产品的价值在短时间内显性化,让客户在 30 分钟内就能感知到价值并算清账目。


大模型和智能体的运用,使我们能够解决整个任务的问题,而非仅仅一个点的问题。这种能力让安全产品不单是工具,更像是替代了工具和人的角色,提升了效率并创造了更多价值。


孙志敏:首先,大模型安全的重要性基于大模型本身的重要性。好比人们不会为保护价值甚微的硬币而购置昂贵的保险柜,大模型安全的价值需与它应用的重要性相符。当下,大模型虽备受关注,但其商业化应用尚未全面普及。


其次,大模型安全商业化的前提是大模型自身的广泛应用及重要性。唯有大模型在各行业充当关键角色时,其安全性问题才可能成为真正的热点。例如,Log4j 事件之所以成为热点,在于它影响了一个被广泛运用的技术组件。


第三,就我们自身经验而言,大模型商业化的进程未达预期。在过去一年多时间里,我们在大模型安全方面的投入主要集中在合规成本上,其他方面的投入以及客户预算均相对较少。这表明大模型安全商业化的市场需求尚未成熟。


最后,大模型安全商业化的过程或许需时良久。尽管此方向具潜力,但实现商业化并非易事,所需时间可能远超一两年,甚至更久。


Q5: 当下大模型安全是备受关注的重点,那么,大模型安全是给大模型公司创造了机会和需求,还是为广大创新创业公司创造了机会?


韩蒙:对于一个基础大模型的供应商来说,需要构建自身基础的防护能力。从市场机会的视角来看,正如先前所述的‘分久必合、合久必分’,当整个供应链中不存在全能角色时,供应链会被划分成不同阶段。这里存在一个基本逻辑,比如我是一个名为 HM 大模型的厂商,我的大模型出色,现在推出一个模型安全工具。若大家不盲目信赖我,就会产生疑问:是我的模型安全,还是模型安全工具好?当我测评别人的模型能找出问题,却称自己的模型没问题,是难以获得市场认可的。也就是说,大模型厂商虽有内置安全团队开展工作,但不一定存在商业化机会,这是一种逻辑考量。


举个不太恰当的例子,如今智谱表现卓越,可能也有安全团队在运作,若智谱去评判自身和他人的模型优劣,市场很难接受,毕竟不能既当裁判又当运动员。所以此时确实为创业公司,特别是像我们这类从事治理赛道的公司,提供了更多机遇。这里有个基本逻辑,就是不能既做基础大模型,又做治理工作,否则难以让市场信服。


此外,还存在迷信的情况。刚才提到 HM 模型可能被迷信,实际上我们很多时候也迷信 OpenAI,认为它是最出色的,但事实并非如此。当我们不迷信某一家时,专注于治理赛道的初创企业就有机会服务更多客户,即便无法服务 OpenAI 或最强大的基础模型厂商,仍然能够服务其之外广泛的应用市场。所以,我们从事这一行业要保持无限乐观,客观分析也会发现存在足够大的机会。


宁宇飞:我认为,尽管 OpenAI 目前尚未衰落,但其面临众多厂商的竞争。在此情形下,在整个大模型产业和安全产业的漫长链路里,必然存在大量的机会。实际上,这可被视为传统外部安全从业人员的一场盛宴或狂欢,从中能够发现诸多现有的切入点,甚至能够从 Web 安全迅速转向 AI 安全,或者是 AI 加安全的众多场景。


郑瀚:我认为,大模型安全实则是一个责任共担的问题。就拿 OpenAI 来说,尽管其在大模型安全方面付诸了努力,但无法实现绝对安全。同样,其他公司或个人在大模型安全方面的尝试,像伊利亚的创业项目,旨在构建一个超级安全对齐的模型,这也面临着重重挑战。


大模型不单涵盖基础模型(基座)和基础设施层(Infra 层),还深入至业务层,融入传统软件的开发流程之中。在此过程里,存在业务风险控制问题、传统安全流程问题,以及大模型自身机制的问题。但是,大模型本身无法化解所有这些难题。


基于此观点,我认为市场上存在极大的机遇,第三方公司能够提供整体的解决方案,助力解决大模型安全的问题。这不但涵盖技术层面的解决方案,还可能牵涉业务流程、风险控制等多个方面。


孙志敏:我认为这两个问题并非相互冲突。首先,任何大模型厂商都义不容辞,要做好大模型的新安全工作,最佳的安全应是内生安全,所以其必然要有自己的安全团队来落实。然而,大模型厂商不可能做到事无巨细,模型推出后,包括之前郑总提及的围栏以及后续的具体场景化应用,都会牵涉众多安全问题,这便是周边或者创业公司的机遇。双方应当相互弥补、相互补充,未来通过合作将此事妥善处理。


Q6: 鉴于之前 Open AI 组建了 Super alignment 超级对齐团队,以及 Open AI 的首席科学家离职并开启了自己的新项目——安全超级智能,这些都充分体现了安全性在大模型领域的重要性。站在人类命运共同体的角度,探讨如何保证大模型自身的安全可控,防止被未来的超级智能力量所颠覆?


韩蒙:大模型迅速爆发且迭代频繁,但在机理上尚未呈现出类似人类智能的基底性特征,算法理论也未取得突破。当下所谓的“大力出奇迹”只是表现出近似智能的效果,实际上它并非真正聪慧,因其机理与人脑及现有有机生命体差异显著,所以个人觉得目前尚未在机理上看到有接近产生人类智慧、自主学习乃至毁灭人类的突破。


当前,我们所讨论的大模型安全,多是指其胡言乱语、乱说话或违规。人类用五千年文明告诫自身有些话不能说,而要求刚训练完成的模型明白什么不能说,难度极大。一方面,从业者和社区要发展,需更清楚风险和安全隐患并开展工作;另一方面,从宏大的 AGI 角度或许无需过度担忧,但对于具身智能,像自动驾驶、无人飞行等应用场景,在应用和发展中需要更加谨慎,应当建立有效的风险防范机制,也呼吁政府提前开展相关工作。我们欢迎科技发展,或许难以阻挡其发展,但要在构建一定防范机制的基础上发展应用场景,做到有效、不激进且相对审慎。


宁宇飞:若要对大模型进行控制和限制,我觉得应当从根源入手。AI 的泛化能力和性能,除了自身算法的优劣外,核心在于预训练和后期 fine tuning 的数据。人类发展历史沉淀的知识以及互联网开放数据规模极其庞大。若要为其泛化能力或者可能造成的可预期问题划定界限,可以在源头也就是输入数据方面加以限制。比如未来倘若要做小型的垂类模型,可以限制通过哪些数据输入来获取哪些能力。若不提供这类条件,即便其泛化能力再强,也不会超出一定的范围边界,从而在一定程度上实现安全可控。


郑瀚:我分享一下个人的想法,这个问题可以拆解为两个子问题来探讨,其一为颠覆,其二为颠覆后如何确保安全。如今我们能够看到,科技行业的从业人员非常愿意推动大模型技术去颠覆传统的软件行业,然而传统软件的开发者或者相关人员可能不太情愿甚至存在阻力,因为大模型颠覆了传统软件架构的流程,从输入到最后的数据处理流程发生了极大的改变,这使得中间流程技术栈上的很多人如果不做出改变就可能面临失业,他们成为了范式改革的阻力,而新兴的科技人员则期望颠覆。谈到颠覆,最大的解决办法就是跟上技术创新的时代,如此便不会被颠覆。


第二个子问题是颠覆后的状况,虽然目前还未实现颠覆,但在座的各位都期望它能够颠覆。从我的视角进行量化来看,整个白帽社区或许只有不到 1%的从业人员关注这个领域,但是我们拥有庞大的后备力量,历史上有上百万的白帽研究人员等着进入。新的问题在颠覆后必然会被迅速发现,新的解决方案、产品技术也会随之提出,这是一个此消彼长、同步演化的过程,技术的进步必然会有相应的安全解决方案跟上来,这也是中国软件发展二三十年的规律。


沈凯文:换个思路来说,就如同电影所展现的那样,许多问题起初未受到重视,之后逐渐变得极为重要,以至于难以解决。但在 AI 领域,我们可以稍显乐观,因为从一开始就关注到了其安全问题。当前所遇到的可解释性及一些安全问题,或许正如郑瀚老师所言,AI 还不够强大,很多人尚未深入涉足这个领域。随着 AI 的发展逐渐深入人心,会有更多的人予以关注。此前与清华和阿里的专家交流,他们颇为激进,认为未来软件形态或许会分为开发 AI 和专门研究 AI 安全这两部分。从这个维度来看,随着时间的推移,只要人类不忽视,这些问题必然能够得到解决,对此我较为乐观。当然,最终可能会软硬件一体,会研究众多软件,就像电影里为 AI 设定原则。未来我们需要保留一点,即在硬件上设置一个重启按钮,比如在电源或者其他地方,在极为严峻的情况下,让人类能够为 AI 进行暂停或重启,这便是我的想法。


孙志敏:首先,我与韩老师的观点高度统一,现有的技术距离人类水平尚有很大差距,包括 Transllava 及 ChatGPT 等。但我也持有一个相对悲观的看法,当对比硅基生命和碳基生命时,碳基生命存在核心问题,每个人仅能存活几十年,人与人之间互联的信息十分薄弱,下一代又需重新起步,而硅基生命完全能够继承、迭代、发展。从这个角度而言,硅基生命全方位超越人类是有可能性的,而且可能性极大。刚才凯文提到,上个世纪阿西莫夫在《银河帝国》中提出机器人三定律,即机器人要服从人的领导、不能伤害人类等。但至少就当前这一代来说,我们在软硬件体系结构上还无法设计出这样的东西。当然,如果不行,凯文提到的白电源办法不错,但白电源也存在风险,比如未来 AI 分布式发展,每个人的手机上都有,这是较为遥远的情况,大家只是想想罢了。


写在最后


“AI + Security”系列的第三期专题分享活动将于 9 月初左右与大家在线下见面。届时,我们将邀请来自人工智能(AI)和网络安全领域的行业专家以及领军人物共同参与分享,深入探讨并分享关于“AI + Security”技术理念的独到见解和丰富经验。


欢迎大家关注“安全极客”,我们热切期待您的加入,一同推动 AI 与安全技术的融合与创新,共创美好未来!

用户头像

云起无垠

关注

定义开发安全新范式 2022-10-14 加入

云起无垠致力于为企业提供自动化安全检测能力,让企业更安全,让安全更智能。

评论

发布
暂无评论
“AI+Security”系列第2期(五):大模型自身安全_云起无垠_InfoQ写作社区