AI 大模型加速升级,数据和隐私何以为安?
2023 年 3 月 22 日,谷歌宣布正式公开发布其聊天机器人产品 ——Bard。
与 Bard 是谷歌对 ChatGPT 的竞争产品一样,3 月 16 日,百度同样提早发布了全新一代的知识增强大语言模型——文心一言 (ERNIE Bot)。
二者与前不久火速成为各行各业热议话题的 ChatGPT 和 GPT-4 相映成趣。
显然,这些已经不是个别公司的技术或产品更新,而更像是 AI 发展史上某个阶段性的演进。
除了技术层面上的迭代与突破,AI 在各行业中的应用普及也在加快展开。
从最先应用于某些行业或场景,到在其他行业的拓展、落地和价值实现,其时间周期越来越短。
这一切也为本就“忧心忡忡”的数据安全和个人隐私保护带来了更多的担忧。
虽然数据安全和隐私保护早已经不是新话题,但是在 AI 领域有着更加严峻的挑战。
特别是随着类似于 Bard、文心一言、GPT-4 等这些利用超大量个人数据的大模型的 AI 能力的出现,以及 AI 通过互联网在各行业的迅速渗透,近些年里相关的危机明显加剧。
数据泄露、黑客攻击、个人隐私信息非法利用等事件频发,给企业和个人带来了巨大的损失。
2022 年 12 月,法国监管机构对微软公司处以 6000 万欧元罚款,原因是该公司的相关行为违反了法国的数据隐私规则。
2023 年 1 月,爱尔兰数据保护委员会宣布,将对 Meta 处以两笔总额为 4.11 亿美元的罚款,因 Meta 违反了欧盟隐私法。
自 2022 年 1 月 28 日以来,整个欧洲的数据保护监管机构已开出总计 16.4 亿欧元的罚款,迄今为止,根据欧盟通用数据保护条例(GDPR)开出的罚款总额为 23.4 亿欧元,涉及 Amazon、Meta、Google 等多家互联网巨头。
由于不断升级的 AI 能力可能会对知识产权和隐私信息带来潜在风险,越来越多的公司正在更新其隐私政策,限制员工在处理工作时使用如 Bard 、ChatGPT、GPT-4 或类似模型。
为了更好地保护数据安全和个人隐私,我国分别于 2021 年 9 月和 2021 年 11 月正式实施《数据安全法》和《个人信息保护法》。其中规定了数据安全的基本要求和保障措施,旨在为企业和个人提供更加全面的数据保护。
然而,法律法规、企业制度和流程等只是一个方面,要想真正实现数据安全和隐私保护,离不开技术的支撑与保障。
机密计算(Confidential Computing)就是一种能够有效保护数据安全的技术手段。
它可以在不泄露数据的情况下,对数据进行计算和分析,保护数据隐私。
机密计算技术的应用场景非常广泛,包括金融、医疗、电子商务、社交网络等领域。
机密计算的基本工作原理是,通过在基于软硬件的可信执行环境(Trusted Execution Environment, TEE)中执行计算,保护数据和应用,保障使用过程中数据以及模型的机密性和完整性。
TEE 作为机密计算的核心支撑技术,一般需实现隔离执行、远程证明、内存加密和数据封印这四种技术目标中的一个或多个:
(1)隔离执行是通过软硬结合的隔离技术将 TEE 和非 TEE 系统隔离开来,使得可信应用的可信计算基仅包含应用自身和实现 TEE 的基础软硬件,而其他软件甚至是操作系统内核这样的特权软件都可以是不可信的甚至是恶意的。
(2)远程证明支持对 TEE 中代码进行度量,并向远程系统证明符合期望的代码运行在合法的 TEE 中。
(3)内存加密用于确保在 TEE 中代码和数据在内存中计算时是处于加密形态的,以防止特权软件甚至硬件的窥探。
(4)而数据封印可用于从 TEE 将数据安全地写入外部的永久存储介质,且该数据仅能被相关 TEE 再次读入。
目前主流的 CPU 厂商都提供了 TEE 实现,比如 Intel SGX、ARM TrustZone、AMD SEV 等。
以 Intel SGX 为例,来看一下启动了 SGX 保护的应用软件的生命周期,如下图。
该应用软件由可信部分和不可信部分组成。受保护的数据和代码存在于可信部分。应用程序运行之初,创建 Enclave,并放入可信内存中。通过受控的入口点调用可信函数转入 Enclave 中执行。Enclave 可以访问所有进程的数据,但外部访问 Enclave 中的数据被严格禁止。可信部分执行结束,可信函数返回 Enclave 数据,应用软件继续执行不可信部分的代码。
基于 TEE 的机密计算技术最先较为广泛地应用在手机移动端,如生物识别、SoftSIM、eSIM、安全文件夹、比特币钱包等。随后扩展到物联网,比如智能家居设备、车载设备等,将娱乐部分和控制部分隔离,用 TEE 搭载控制部分。
之后进一步应用于 PC 端,特别是笔记本电脑的指纹识别、银联认证的指纹支付等,所有涉及隐私数据的计算都发生在 TEE 中,数据仅在 CPU 内部解密,防御直接对内存的物理攻击。
云计算和 AI 领域也开始探索其使用场景和实施方案。比如,提供安全的隔离环境进行横向联邦学习和纵向联邦学习,消弭数据孤岛现象。有了基于 TEE 的机密计算的加持,云服务提供商可以更好地保护用户数据安全,用户则可以更放心地利用云端计算资源加工各自的隐私数据,而不用担心数据会被泄露或恶意获取。对于安全可信云计算、 大规模数据保密协作、 隐私保护的深度学习等涉及大数据、高性能、通用隐私计算的场景, TEE 是首选的技术手段。
虽然基于 TEE 的机密计算技术较好地兼顾了安全性、高效性和通用性,具有明显的工程实践优势,但是目前在国内还没有关于 TEE 的工程实践类书籍,其在人工智能场景中的实践总结更是少之又少。与此相对的是,中国的云计算和人工智能服务厂商及其用户对该技术具有非常高的兴趣,越来越多的云厂商开始积极引入机密计算技术,以提供更加安全可靠的云计算服务,见下图。
鉴于此,《机密计算:AI 数据安全和隐私保护》一书应运而生,系统性地总结了可信执行环境技术和它在人工智能领域中的应用实践,以推动该技术在中国人工智能领域中更快更广泛地传播和产生更多的创新。
值得一提的是,此书的作者们长期致力于为互联网行业研发部署用于超大规模数据中心的云计算和人工智能服务器解决方案。他们从 CPU 定制、平台设计,到性能调优以及线上集群优化,在推动隐私保护计算技术的应用中,充分见证了各种技术在人工智能实践场景中对于计算过程的安全性、性能、精度以及适用范围的差别,在实践中创造产生了不少应用原型方案,其中一些更是处于世界的前列,在此书中尽有详述,并且提供案列源码下载链接。
内容简介
本书系统介绍了面向人工智能领域中的数据安全、隐私保护技术和工程实践。
本书首先探讨了人工智能领域所面临的各种数据安全和隐私保护的问题及其核心需求, 并在此基础上纵览和比较了各种隐私保护计算技术和解决方案的利弊;然后详细阐述了目前比较具有工程实践优势的可信执行环境技术,及其在主流人工智能场景中的工程实践参考案例。
此外,本书介绍了关于数据安全和隐私保护的概念、原理、框架及产品,从而帮助读者对机密计算的技术全景有整体的理解。
对于从事信息安全、云计算、数据隐私、人工智能等领域的专业人士和学生来说,这本书是一本不可或缺的参考资料。
本书共包括 8 章,分为 3 个部分。
第 1 部分:基本概念框架。第 1 章介绍了数据安全和隐私保护面临的挑战和核心需求、隐私保护计算概念,以及人工智能领域中的攻击模型和典型安全问题。第 2 章纵览和比较了各种隐私保护计算技术和解决方案。第 3 章将各种技术方案与实际场景联系起来,介绍其在人工智能场景中常见的应用。
第 2 部分:深度技术解析。第 4 章详细阐述目前比较具备工程实践优势的可信执行环境技术,包括软硬件架构、关键技术和安全机制。第 5 章全面介绍以可信执行环境技术为基础的软件开发,包括开发环境及其组件、应用程序开发、库操作系统及其在云环境中的应用。
第 3 部分:工程应用实践。第 6~8 章深入地介绍可信执行环境技术在主流人工智能场景中的工程实践和参考案例,涉及纵向联邦学习和横向联邦学习模型训练场景、 云原生在线推理服务场景, 以及大数据 AI 应用场景等。各章中的案例均由本书作者开发或经合作伙伴授权发布。
京东限时五折,快快扫码抢购吧!
参与抽奖
免费获赠本书
评论