专访高雪峰:从 GPT3.5 到 4,超强推理能力的实现与“图”密不可分 | 36 氪专访
“符号”与“向量”,AGI 的两条腿。
整理 | Ricky
作者 | 王与桐
2023 年 3 月 15 日,GPT4 亮相。尽管以 GPT3.5 为基础的 ChatGPT 更具里程碑意义,毕竟引发了全球 C 端用户的使用,但是在更多 AI 从业者看来,GPT4 的意义远高于 3.5,这是因为,GPT4 具备了令人惊艳的“逻辑推理”能力。
但为什么能够实现“推理”?以往热衷分享技术细节的 OpenAI,这次却“讳莫如深”,这让全球用从业者和用户都在猜测其中技术原理。
高雪峰也是其中一员,他的想法是,“大图”和“大模型”是支持 AGI 发展的两条腿,二者缺一不可。现在,业内普遍认可大模型的价值,并因此出现了一众大模型创业者,但是对于“大图”在 AGI 发展过程中发挥的作用,却并不清晰。
高雪峰告诉 36 氪,深度学习就是通过概率的方式来记忆和存储泛化知识,也就是大家熟知的“向量”,大模型就是“计算概率”领域的杰出代表;与“概率”相对应的,“符号逻辑”是逻辑推理领域的代表实现,图论是逻辑推理最好的支撑。他从产品角度出发,认为至少可以在 prompts engineering 的阶段,结合“图”来实现 GPT4 的“推理”目的。大模型可以很好的沉淀泛化知识,但是如何把泛化的知识进行关联并为人所用,就需要符号逻辑系统的深度参与。
高雪峰,历任 IBM 认知计算研究院院长,阿里大数据 &AI 产品部门总经理,在大数据和 AI 应用领域拥有多年的产品研发和商业化经验积累,曾带领团队打造出多款具备国际影响力的大数据和 AI 类相关产品。在 AI 行业的摸爬滚打,让他洞察到了 AI 的趋势,并在 2021 年决定出来做 AI 基础层的创业。
Fabarta成立于 2021 年,以“大图”能力为核心。在创业初始,随着美国公司 Snowflake 的上市且市值最高曾达 1200 亿美元,国内也引发了数据库创业热潮,但在那时,高雪峰就决定不做数仓,他认为那是 BI 的 infra,他要做的是 AI 的 infra。
一年半研发时间让 Fabarta 等来了行业的变化,此刻,高雪峰认为最重要的就是团结所有力量,学界、大模型、应用方、基础设施团队,合作碰撞出“大图”和“大模型”的结合点,做出真正具备推理能力的中国 AI。
01 GPT4 的超强推理能力,源于“图”
36 氪: 你在 2021 年开始创业时,那时 OpenAI 的 GPT3 应该已经出现了,当时行业里是怎么认知的?
高雪峰: 那时开源的是 GPT2。大家举的例子就是:你看 OpenAI 做了几年也就那样,中国有啥大模型?
我在阿里时就负责大数据和 AI 的相关产品与解决方案,在大数据方面以离线和实时数仓,数据湖的产品为主,在 IBM 认知计算解决方案研究院里主要负责帮助企业智能化升级过程中需要的大数据,数据分析和 AI 的相关技术。
2021 年,Snowflake 缔造的神话,让很多人意识到了数仓的价值,因此那时很多投资机构跟我说:“雪峰你做数仓,数仓这个项目最火,估值也可以很高。”
但我不做。如果是在五六年前做数仓,我觉得可以做,因为数仓是面向 BI 的基础设施。但时代已经不同了,2021 年,我想做的是 AI 核心基础设施。
所以我就跟很多投资人说,未来 AGI 的核心基础就是大模型和大图体系结合在一起, 只有这样才能作为通用人工智能的支撑。当时大部分人认为大模型和大图都不靠谱。
36 氪: 您提到的大图和大模型是 AGI 的基础,怎么理解?
高雪峰:真正做到 AI 需要两个名词,一个叫向量,一个叫符号,分别对应着大模型和大图。
向量就是概率,可以把大模型 transformer 理解成在向量领域计算概率,利用大量高维参数组成的向量,通过矩阵运算来计算概率。一长串字符之后是 a,它会预测下一个字符可能是 b,b 之后可能是 d,d 之后可能是 a,就是这种预测,最后用文本生成。不管是之前的 Bert,还是现在广为流行的各种基于 Prompts 的多模态大模型,都不改变它做概率预测这件事。
但它没有办法做逻辑推理,GPT3.5 也没有办法做逻辑推理。
比如我们问它:姚明出生的那一年 NBA 季后赛的亚军教练是谁?这个看起来挺简单的问题,放到 GPT3 里,它就回答得乱七八糟。教练是谁也不知道,年份也弄错了。
GPT3 能猜对时间年份,但很多中国的模型会把那道题放在 2002 年。
36 氪: 为什么是 2002 年?
高雪峰: 姚明出生那年是 1980 年,2002 年应该是姚明第一次获得 CBA 冠军的时间,网上它的信息会很多,概率不知道问的是生日还是什么东西。
为什么我不问冠军?因为冠军宣传得多,亚军宣传得就少,问亚军的话它可能就乱了。这完全就是概率,看网上或 wiki 上哪个信息或更多一些。
但 GPT4 的逻辑推理能力是很强的,它可以很清晰地把我刚才的问题拆解,并准确回答。目前看来只有 GPT4 能够做到。
36 氪: 3.5 和 4 中间究竟是什么技术的出现或者应用,导致了这种变化的发生呢?
高雪峰:抛开多模态的新能力,核心就是逻辑推理能力的提升。 GPT4 的推理能力变得非常强。就像刚才提到的,大模型就是计算概率,符号逻辑才能去辅助推理,图论是它最好的支撑。这就是为什么我们要把大知识图谱而不是传统意义上小数据量图谱的力量融合在一起,才能具备核心的推理能力。
GPT4 里一定加了很多推理的能力,但是具体怎么融合的,OpenAI 不公开,我们也不得而知。
你直接问 ChatGPT “你知识图谱的能力都用在了哪些部分?”,它就会回答“在预训练、prompts 的梳理都用到了图技术”。你再问“你用了一些开源的图的技术吗?”就会被告知“都是自研的技术”。后面就不会回答了。
为什么我说 GPT 不同版本的技术,推理能力的显著提升,一定跟图相关技术的结合是密不可分的,还是从一个例子出发,用这个问题来去挑战各个 LLM:“姚明出生的那一年的 NBA 季后赛亚军球队的教练是谁?”
目前来看,除了 GPT4 以外,其他的大模型都无法给出正确的答案。 但是,如果我们将问题拆解,“姚明出生在哪年?” “1980 年 NBA 季后赛的冠亚军球队分别是谁?” “1980 年,费城 76 人队的教练是谁?” ,有很多优秀的 LLM 都可以给出对的答案。之所以出现这种落差,其本质还是 GPT4 在纯概率的模型之上进行偏向符号的逻辑推理,那一定会产生让人意想不到的结果。
先不说 GPT4 可以在很多专业的领域知识,比如很多经典的科学定律,规则等进行现象和逻辑的推理,至少从上面我们提到的很简单的例子里,在输入 Token 里关键实体与其逻辑关系的解析和提取上,我推测一定采用了一些与图有关的技术来进行处理。 所以我们说代表符号和连接主义的工程实现,与代表概率和向量领域的工程实现融合在一起,才能体现出令人越来越惊讶的智能。
图的技术与 Transformer 的技术有很多可以结合的点: 1. Transformer 的训练架构接收图结构的数据,使得模型更好的理解输入数据之间的关联关系。 2. 用图结构的数据来训练 Transformer 模型。 3. 图结构的知识蒸馏,以应对细分领域的专家知识。 4. 损失函数的处理上结合图数据形式的重新定义。
就像我们人脑有个很典型的特点,比如去年的某一天,我在一个公园里遇到了一个多年未见的老友,相谈甚欢。 那这个人的模糊印象(向量特征),与当时公园的环境,天气,体感(向量特征),以及我们在做什么事情 (连接关系) 都会记忆在人脑之中。 当我在到这个公园,熟悉的环境,我就可能通过发生过的这个链接关系,想起这个老友的样子。 构建这样一个能够把实体,以及其连接关系,还有对应的向量特征融合在一起的多模存储与计算的大规模引擎,就是未来我们想要做的事情。
36 氪: 所以 GPT3.5 到 4,在向量这个层面困难没有更多本质的变化了对吗?
高雪峰: 它可能参数更多,数据量也会更大。
36 氪: 质的飞跃,原因集中在符号这个层面?
高雪峰: 对,没错。GPT 具备推理上的能力,才是最恐怖的。比如根据物理学的原理或公式,我告诉它一个现象,它就会告诉我有什么结果发生,帮你做出推理。
毕竟,GPT3.5 出来的时候,我们都没有感觉这种东西将马上颠覆世界,我觉得就是大力出奇迹,量变会带来质变的必然过程。包括 New Bing 出来后,其实都是围绕 GPT 在产品上做创新和变革,比如 New Bing 能把实时搜索出来的信息 summarize 并很好地组织起来,然后编辑适当的 prompts 调用大模型的 API,得到结果后把结果组织起来反馈给产品上的客户。这其实就是产品的融合,并没有让我们太惊艳。
36 氪: 所以我们需要追赶的,不仅是大模型一件事。
高雪峰: 我们很多本土的开源大模型还停留在拿大量的数据、prompts 以及 transformer 的性能上。但真正要实现一定是向量加符号的融合,这也是学术上大家都认可的方向。
向量就是概率,概率就是不可解释,符号的图论就是可解释,两者融合在一起才能走向真正的智能。GPT 有思维逻辑,概率会补充思维逻辑,思维逻辑这张大图又会验证概率,修正概率预测的参数模型,就可以实时且相辅相成地学习新东西。这就是我们未来通用人工智能所需要的智能。
这也是我们创业选择图赛道和方向的原因,因为大图和大模型是通用人工智能的两条腿。
我们等来了大模型的爆发,但目前找不出真正具备分布式计算能力的大图系统,也没有开源,所以我们只能一步步去做。这需要时间的沉淀,不是一两年就能做出举世闻名的大图系统。真正能承载符号推理的大图系统,一定能帮助未来通用 AI 实现非常强大的推理能力。
36 氪: GPT4,或者说在 AGI 的基础设施中,其“图能力”是怎么发挥作用的,是类似于引擎吗?
高雪峰: 你可以把它理解成一个图的引擎,能够存储图结构的数据,并在图结构数据上做高速的检索。像搜索引擎 Google、百度背后都有庞大的图的能力做搜索的支撑,但并不能直接拿出来作为通用产品给别的应用使用。
GPT4 如果有图的系统,一定深入融合在预训练各方面的过程里,不是可剥离可抽离的东西。我们未来想做的是开源开放且具备分布式存储和分布式计算性能的大图引擎,我们也会跟国内外开源的 LLM 或多模态模型进行深度的合作,来确定怎么利用大图的能力去支撑预训练、prompt engineering 或者是重新定义 loss function 这样一些收敛能力进行深度结合。这一定是需要尝试纠偏,再去调整的的过程。
36 氪: 那从您的角度,现在大图该怎么样做,才能助力中国的 AGI 发展?
高雪峰: 这里面有很多核心的技术,目前尚不可知。这需要学术上研究它们的理论结合点,从工程上我们跟大模型的公司合作完成这件事。
我们也会开源,也要把大图的分布式计算效率解决。图上的分布式计算很少有人做,但数仓这种二维关系的分布式计算很多人做,其中的原因是图的分布式是一个 NP 问题,也就是在数学上无解的问题。不管怎么去拆分你的大图,分成什么样逻辑的 partition,分布式的通信都不能达到最优的效率。因为图最擅长的应用就是多跳, 大规模多跳的情况下,如果出发点是 1000 个点配上全连通的图,1000 个点 5 跳 6 跳的路径会把所有的点全部遍历一遍,数据量非常大,这就很难拆分,下一步不可预测。不管怎么拆都涉及到不同的分布式计算节点之间频繁的网络通信,这个就是所谓图的 Np 问题。
我们现在在工程实现上做了很多优化,比如利用原图内存当中的多级缓存,就可以很容易预判多跳应该访问哪些计算节点,避免产生频繁的网络通信和风暴,这就是我们做的工程上的优化。
我们预计会在下半年开源核心引擎,到时应该是世界上唯一一个真正做图的分布式计算来支撑大图的开源系统。现阶段大部分图的相应应用,还都是以 mpp 架构为基础,不能做到云原生的大图存算分离以及分布式计算这种典型架构。
02 要做加油站旁边的便利店,而不是再做一个加油站
36 氪: 你刚才提到和大模型的结合,咱们现在进展到什么程度了?
高雪峰: 我们自己内部也做了一些 Hackathon 的创新尝试。在输入 prompts 的阶段把图的能力引入进来,其实还是做 prompts engineering,我觉得这种方法能迅速地让没有推理能力的大模型产生推理能力。我认为还是偏产品层面的组合,有点像 New Bing 的实现方式,或是微软 office 365 的 Copilot。Copilot 里也推出了新的产品,你听说过微软推出图的产品吗?但它推了一个 Microsoft Graph,把不同文档或微软的组件和工具用图的方式组织起来,不同的文档之间才能互通,它也是利用产品的方式,再去调用大模型 API 产生协同价值。
我觉得这一点是可以做的,但也需要我们图和产品的能力,更重要的是在预训练过程中将向量、逻辑符号和图的逻辑推理能力融合在一起。这一点需要不断的工程实践,才知道如何融合。
这个问题扔到业界随便问一个人,研究过这个的都会觉得有结合的点在,但结合的点在哪需要大家一起来试。
36 氪: 现在大家都还在探索的阶段?
高雪峰: 肯定要探索。我们和一些知名院校在图计算领域做学术共研,真正的阶段性的学术成果可以发非常多顶刊论文。
共同探索也是我们选择开源的最主要原因。既然我的引擎是唯一的具备分布式计算能力架构的引擎,我闷声去跟云厂商合作赚钱就好,为什么要开源呢?就为了最终的目的,开源以后,大家可以拿来碰撞去试,甚至 debate 这样的架构里哪些性能对预期模型支持时有本质的差别,我们才知道大家怎么用;如果是封闭的东西,就很难形成合力。选择开源不是因为要通过开源做商业化的转化,而是为了真正想要实现的目的。
36 氪: 你刚才提到,在 2021 年已经看到 AI 的趋势了,为什么没有选择做大模型?
高雪峰: 我当时认为,一定要做 AI 的基础设施。虽然很多科学家在做深度学习,但要让我找上百人的话,这在中国比较难,但要做成大模型,我觉得没有上百人是实现不了的。
而且训练大模型的资源成本很高,对于创业团队来说,这都是很难逾越的障碍。最重要的就是用于训练的资源,现在我们整个儿的 A100 卡的资源都非常的紧张,很多的领域都需要 GPU 卡的集群, 除了大家都在谈论的 AI 大模型的训练和推理外,自动驾驶,金融的量化分析等等都需要 GPU 的资源。而现在云厂商也都在自己集中力量做属于中国的大模型,还有越来越多的创业公司加入到这个队伍中来。云厂商开放的 GPU 的服务通常都是公共的分时服务,也很难在一段时间之内集中大量地给到哪些企业进行大模型的训练。
这就会出现用于训练和推理资源挤兑的问题。所以大厂在做大模型的这件事情上还是有先天的资源上的优势的。
36 氪: 创业公司做大模型,还是需要源源不断资金来源的。
高雪峰: 我觉得,踏踏实实地做客户做业务,与客户、社区一起成长,这是做 To B 该有的心态。
如果我去做大模型,可能瞬间就会烧掉我所有的钱,然后还没有明显的商业化结果,别人不会为你买单。
OpenAI 经历那么多年,烧了那么多钱,是因为它被定义成非盈利组织;直到微软投进来,才决定改变自己的营利性原则。有了投资盈利 100 倍的盈利目标然后再去做非盈利的事情。
可成立一个公司还是需要奔着商业化的方向去做,所以国外目前跑出来的寥寥,真正出圈的就是一家做大模型的 OpenAI。
36 氪: 现在大模型创业热潮已经来了,所有公司都想要成为中国版 OpenAI。
高雪峰: 大模型现在不是一种容易复制的东西,OpenAI 也经历了很多波折。
早期的 Open AI 在 prompts 和 design 之类的枯燥工作上也下了很多的功夫,而 Transformer 的技术很早就有了,像之前的 Bert 等也都是基于 transformer 来做的,所以业界在算法上也都在走这个路线。
所以并不是说大模型是一种容易复制的东西,我不认为有几亿人民币就能搞定这件事情。训练一次千亿级别参数的模型,像 GPT3.5 或 GPT4 这种,各种成本叠加起来,肯定需要上亿美金,这是不可能改变的。
现在也有一些公司专门做框架的优化和分布式训练的优化,想办法让大模型参数很多时,所需的资源变得越来越少。但优化不了多少,它没有办法改变量级。所以 LLM 的技术或者模型的发展,在给自己带来商业价值与营收之前,先是给像英伟达这种 GPU 的厂商带来特别多的营收利润和发展前景。
还有一件确定的事是,耗电量的提升和导致全球变暖。
36 氪: 前两天我还看到新闻,说 GPT 目前每天的用电量抵美国的一个小镇。
高雪峰: 是的。所以做大模型,是非常有挑战的事情,不管是从算法,优化,数据的整合,以及算力资源的调配,当然还有持续的资金的支持,都非常具有挑战。
36 氪: 现在还有一个争议,就是大模型走开源还是闭源的路线。
高雪峰: 我跟一些圈里技术人的交流中关注到这个争议,我个人觉得闭源的大模型这件事是有一定局限的,也都相信肯定会快速地涌现出各种开源领域的 LLM 或者多模态的通用大模型,甚至是在不同的专业领域的专有大模型。
为什么闭源有局限性?一是相对更耗钱。二是闭源就是封闭的生态,这样就很难产生有阶段性的商业价值、好的未来商业潜力。
我认为,在 AI 这个领域里,真正的分布式工程化能力非常重要。好的工程化 AI 平台,和承载很多优秀的开源大模型的公共平台,我觉得都有价值的。
比如美国的 Hugging Face,我觉得它的潜力应该是更大的。随着模型生态越来越多,需要有社区把不同的模型和其潜在用户、训练者、优化者这些不同角色的人链接起来。这个能量可以比喻成当时的品牌经济,像阿里巴巴的天猫,它就是把商品和消费者在平台上链接起来。阿里做了 ModelScope,也想实现像 Hugging Face 的初衷与目的。Hugging Face 目前的营收虽不多,但它如果真的想盈利,瞬间就会做成很大的营收。你可以看一下上面各种模型的下载量,它们投入了很多扎实的功力,帮助优化模型让它可用。
所以,在这样大的细分领域里,一定有很多机会可以去做,并不是所有人都得去做大模型。在中国就是好多人冲进来做大模型,而且融了很多钱。在美国出现一个加油站,特别挣钱,所以加油站附近就又出现了快餐店和小旅馆等,慢慢地加油站旁边就形成了一个小镇;反过来在中国很典型的场景是,一个加油站非常挣钱,周围就会出现十几家加油站,把这块地给掏空。
GPT 出来后,美国涌现出很多 AI 通用的工程化平台和各种各样细分领域大模型。虽然不是像 OpenAI 那样通用的大模型,但是在细分领域里效果是非常好的。参数可以不用那么大,达到百亿或者近千亿的规模,但它可以通过优化的方式。因为它是特定领域,不是完全通用的,数据来源也会容易一些,不用像 OpenAI 找那么多的公开数据以及书籍,对数据的质量还有极高的要求。
而开源能够加速生态发展。
36 氪: 现在国内做大模型的创业公司、大厂很多,会不会出现资源分散的问题?
高雪峰: 目前来看,对中国来说算力是最难突破的,科学家的储备也不足。但是相对于算力来说,数据这个领域,中国应该会越来越有优势,中国现在数据量占世界的 9.9%,四年之后可能会占到世界的 20%,如果能用来进行多模态大模型训练肯定对中国大模型发展十分有好处。
并且今年大数据局的成立,在我们行业从业者看来是一个非常利好的消息。
03 AI 时代,要有自己的 Infra
36 氪: 图引擎和图数据库的关系究竟是什么样的?
高雪峰: 我们把 fabarta 的产品定义成图分布式的交互式查询和图计算融合的引擎,没有把它定义成图数据库。为了迎合大家的理解,我会把它比喻成大图 TP 与 AP 融合的分布式数据库能力,但其实定义成“集图数据的存储,交互式查询与图计算算法融合的引擎“更合适。
数据库是非常泛的概念,当前很多图数据库也能解决当下的问题,但需要图分析平台这类低代码化产品,客户才能很好地使用,否则也会面临很多问题。但它没办法直接演变到我想要的星辰大海。关系型数据库、数仓都是由各种引擎组成的,比如存储引擎、计算引擎、分析引擎。数据库更像是一个大的概念,处理关系型数据的各种引擎协同在一起,可以称为数据库,处理非关系型,比如图的数据的各种引擎聚合在一起,也可以叫做数据库。
数据库只是一个名词。现在泛数据库更像基础设施的代名词,对于各种数据存储计算和处理就叫数据库。no SQL 数据库、时序数据库与多模数据库都是存储各类不同种类数据的数据库。
原来的图计算与图数据库是完全割裂的,图计算是学术上做的各种各样算法,可解释的 AI,然后是分布式的计算框架,跟数据库没有关系。图数据库是在数据之上做数据存储、数据多跳查询,也是 SQL 解析之类的工作。这就是图数据库与图计算很割裂的表现。
我觉得引擎也好、数据库也好,都只是个概念,AI 的 infra structure 需要大图引擎与大模型协同在一起才能去工作。
而 infra 这个概念,其实大家也不一定已有共识。传统的 infra 概念来自于云厂商体系;而目前, AI 没有形成水电煤气这样通用的能力,那就不需要具备自己的“infra”。
但是未来, AI 将来能成为真正的水电煤气,这是我坚信的。大模型出来后,大家才开始谈 AI 的 infra。有人会把 AI 的 infra 等价为大模型,我不认可,这并不是通用人工智能未来的基础。
所以我一直说大图大模型的深度融合就是未来 AGI 的 Infra。
36 氪: 有人认为,AI 快速增长会挤占一定的云计算市场,您是怎么看待的。
高雪峰: 如果 AI 下面的技术,比如大图、大模型变成真正的 infra,它一定需要云原生。因为它需要弹性扩张,所以一定要放在云上,那怎么挤占云的资源呢?大模型推理起来,需要 GPU,一定会让云市场变得更大。
也要看你如何定义市场,如果是传统面向 ERP workflow 或面向 BI 统计分析指标分析传统数仓,或者像游戏这类 TP,我认为这部分市场才是既有云的市场,这样的话一定会挤占。
36 氪: 你们如何一边创新,一边喂饱自己?
高雪峰: Fabarta 构建在多云之上的云原生分布式图数据库引擎可以将企业不同数据源的数据和数据之间的关系用图的方式进行存储和分析,基于 Fabarta 图分析平台的低代码化能力结合在行业中的图分析算法与框架的沉淀,可以更好的帮助企业级客户构建基于图的场景化分析 (风控,营销,智能化运维,行业知识图谱等)。
36 氪: 也就是说,你们现在业务其实分为两部分,一部分是给客户使用的图引擎+低代码产品,另一部分是与 LLM 结合的大图产品?
高雪峰: 你可以理解成三部分:
一个是最上层,图与细分场景的深度融合,比如 Data Fabric,下一代的数据平台,这个市场是无限大的,因为大家已经不可能做数据的大集中。而且湖仓一体的发展会导致越来越多数据割裂在不同的地方,而且没法治理。我先做基于图数据组织的数据资产地图,慢慢把它做成下一代的 Data Fabric,解决分散的,异构数据之间的协同计算问题,这是一个星辰大海的市场。
中间是 Intelligent workflow。当前大模型的能力出来后,企业既有的工作流就智能了吗?并不是的,将 AI 的能力,融入企业的工作流,还是有非常多的挑战,所以低代码平台要先一步步把这件事做出来。我们先通过将对图数据的各种模式查询和算法分析的能力抽象沉淀在平台上,在通过低代码,进而无代码的方式对业务组件进行编排并产生业务价值,最后通过 App 的 Builder 直接生成可以为用户带来价值的应用组件,先通过可解释 AI 赋能企业工作流的智能化改造,进而融入其他 AI 的能力,打造企业的 Intelligent Workflow。
最后的引擎就是通用人工智能未来核心的基础设施之一。这就是我们为之努力的方向。
编者按:本文来自公众号“数字时氪”(ID:digital36kr),36 氪旗下官方账号,作者:王与桐,Fabarta 经授权发布。
评论