易观:正视 GPT-4 功能缺陷与能力局限可更好探索大模型应用
易观:GPT-4 于 2023 年 3 月 14 日正式发布。与前代相比,GPT-4 的功能有着非常大的提升,易观认为其功能符合预期,也依旧存在前代即存在的功能缺陷类型与能力局限性。GPT-4 的原有功能提升与新特性使其可应用的范围更广,但对 GPT-4 的应用需正视其目前存在的功能缺陷与能力局限性,以采取技术手段、改进应用方法、设计应用流程等方式充分挖掘其应用潜力的同时规避可能存在的应用风险。
GPT-4 的功能缺陷与能力局限性以及相关思考
3 月 14 日,GPT-4 正式发布。OpenAI 首席执行官 Sam Altman 表示 GPT-4 是他们目前功能最强的模型,而 GPT-4 也极有可能是对公众开放使用的功能最强的大模型。与 GPT-3.5 相比,GPT-4 的功能更强。在如 GRE 定量推理、SAT 数学等为人类设计的多项模拟考试中成绩有较大幅度的提升,在传统机器学习模型评估中其成绩也有非常明显的提升。作为多模态模型,GPT-4 对图像的理解极为准确,且能解读图像中的深层含义。在推理方面,GPT-4 的思维链,即将复杂推理任务分解为多个中间推理步骤的能力较前代也有明显提升。易观认为 GPT-4 在功能上的提升重点是其多模态理解能力与思维链能力,而这也使 GPT-4 具有更广的应用空间。
但也如 Sam Altman 所言,GPT-4 仍有缺陷,其能力也有局限性。功能缺陷方面,与第 4 版 ChatGPT 相比,GPT-4 的回答虽然在各个领域的知识上的真实率有了平均 19%的提升,但其回答仍然会“编造”事实,并进行错误的推理。目前有关 GPT-4 的公开信息仍然较少,但易观认为 GPT-4 采用的事实测试其数据与 GPT-4 训练数据分布存在偏差,因此可以认为在测试中 GPT-4 已展示出出色的领域泛化能力,且“编造”事实的情况也可以认为是领域泛化的应用尝试,这也与神经科学中关于形成认知的过程相关研究成果具有较强的相似性。但结合 GPT-4 对错误答案的“坚持”与拒绝审查错误答案的情况也说明 GPT-4 目前对训练数据分布的边界感知仍然非常模糊。能力局限性方面,GPT-4 的绝大部分预训练数据截止至 2021 年 9 月,因此十分缺少在此时点之后的知识,比如 GPT-4 很可能不知道女王逝世的信息。且 GPT-4 不能从对话经验中进行学习,而这种能力的局限性也从侧面反映出目前距离通用人工智能还有很长的一段路要走。
从人工智能相关研究来看,应对 GPT-4 的功能缺陷需要关注领域泛化相关研究,建议关注元学习、自监督学习、解耦表达学习方面的研究进展以及运用强化学习探索中间表达的分布的相关研究。易观认为解决训练数据分布的边界感知问题可能需要以图的形式审视训练数据,但目前从对图的学习研究进展来看,利用图神经网络学习 GPT-4 的训练数据图仍然有着非常大的挑战。从能力局限性来看,需要长期关注持续学习领域相关研究的进展,建议关注域增量持续学习与任务不可知持续学习的相关研究进展,重点关注基于参数隔离的持续学习方法,易观认为应用于基于参数隔离持续学习方法仍然需要以图的形式审视基于任务的参数隔离方法,并要形成任务与隔离方法的评估标准。
从应用角度来看,既可以采用技术的方式降低 GPT-4 的应用风险,也可以通过改进应用方式拓展其可用性,企业更应在充分考虑其缺陷与局限性的前提下制定合理合规的应用流程。后续也将在这个部分进一步展开。
对 GPT-4 的部分猜想及其引发的对大模型开发与应用的思考
目前已知 GPT-3 的参数量为 175B,而其后 GPT-3.5 的参数量未知。易观认为 GPT-3.5 的参数量可能已接近 500B 规模,而 GPT-4 的参数量即使在经后训练后很可能也已突破 1T 规模。而从 ChatGPT 的应用效果来看,很有可能 GPT-3.5 已经采用编解码架构,GPT-4 也沿用同一架构。
根据以上猜想,从微软与 OpenAI 对 GPT 系列模型训练而准备的算力规模来看,已有针对超算的并行计算框架,并很大程度上解决了 T 级参数量大模型的并行计算问题,即在大模型开发的工程化能力方面获得了前沿经验,也可以保证后续开发的大模型参数量的持续增长。从目前公开的 GPT-4 训练方面的资料来看,OpenAI 也已经对大模型训练的规律有着较好的总结,这也有利于开发针对某一领域,具备特定功能的大模型。AI 工程化能力的升级对于我国进行大模型的开发与落地具备非常重要的借鉴意义。
在商业化的考虑上,GPT-4 所产生的示范效应主要为如下几个方面,国内大模型开发与商用过程中可以予以借鉴。
其一,与 GPT-3.5 以及 ChatGPT 相比,GPT-4 更侧重其企业级应用的稳定性与安全性,GPT-4 在 2022 年 8 月已经完成训练,而为了应对可能的风险,在完成训练后直到正式发布的这段时间里一直在对其进行评估、对抗测试、迭代提升、微调与系统级的调整;
其二,尽管 GPT-4 并未开源,但是需要关注到 OpenAI 同时开源的 Evals,既可以用来评估不同大模型的表现,也可以为特定问题设计专有的评估逻辑。这既可证明其产品能力,又为行业设定标准,更可用来辅助设计 GPT-4 在不同场景不同行业的应用模式。充分利用 GPT-4 的思维链能力,检查其推理逻辑,拓展其可用性,规避错误推理以及“编造”事实可能产生的应用风险,企业应用 GPT-4 时,也应针对性的设计人工审查环节,明确责任主体,充分利用其生产力的同时保证其应用的合规性,降低应用风险发生的可能性;
其三,深度协同形成最佳实践,激发围绕 GPT-4 应用与开发的无限可能性,此次摩根斯丹利、Be My Eyes、可汗学院等应用实践不仅是 GPT-4 能力的最佳佐证,也进一步引导了未来其应用的可能方向,包括智能客服、知识搜索、虚拟员工与智能办公等应用,以及在软件开发、金融、医疗、法律、广告等行业的应用价值等;
其四,开放文本输入字数限制,不仅仅展示了其快速的文本理解与逻辑学习能力,同时,也为其按照输出内容量收费的商业化可能性打开了想象空间,结合其最佳实践的引导,无论是场景应用还是商业模式方面,GPT-4 均做出了比较好的示范,值得中国大模型予以借鉴。
声明须知:易观分析在本文中引用的第三方数据和其他信息均来源于公开渠道,易观分析不对此承担任何责任。任何情况下,本文仅作为参考,不作为任何依据。本文著作权归发布者所有,未经易观分析授权,严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源,且分析观点以易观分析官方发布的内容为准,不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议,易观分析不承担因此产生的任何责任,并保留向相关责任主体进行责任追究的权利。
版权声明: 本文为 InfoQ 作者【易观分析】的原创文章。
原文链接:【http://xie.infoq.cn/article/fd0357ce562bc5882095fccf8】。文章转载请联系作者。
评论