小鲸数据:2024 AI 年度洞察
AI 正在加速改造世界。最近两年 AI 出现的频次,几乎已经多到快无所不在的程度。地铁通道里海报右下角的标注:“此内容由 AI 生成”,短视频平台里耳目一新的内容不少是 AI 工具创造的,有可能你看到的办公室里的会议总结也是 AI 写得等等。
今年,一股强烈的 AI 科技浪潮。感受最深的是,9 月爆火的 Cursor,让作者的一个 3 周左右的 Web 应用项目 2 天搞定。发布上线后都还是懵的,太快了!
以前学近代史的时候,“科技革命”仅仅是躺在课本里的四个汉字,没有任何的感受,没有任何画面。直到今年,第一次真实得感受到所谓科技浪潮的冲击,而且是一波接一波。
每个月都有新的 AI 大模型推出,每个月都有不同领域的 AI 产品。今年作者开始更多得接入 AI,除了刚才讲到 Web 项目外,还使用 AI 代码工具独立开发各种形态的产品(客户端、插件、小程序);使用 ChatBI 辅助数据分析,使用自然语言与 AI 工具辅助去做分析,这就解放了从数据处理、建模、可视化的繁杂过程,让作者能够专注在更具价值的业务分析层面;不在局限在 OpenAI,使用多家不同大语言模型的 Chat 服务进行领域知识学习。
跟 2010 年左右在 CV(计算机视觉)上的突破带 AI 在科技圈火爆不一样,这次以大模型为代表的 AI 开始了全面性的出圈,经过 2 年多时间的迭代,AI 的发展到了什么样的格局状态?2024 年又有哪些重大的突破?应用层面有哪些落地场景?本文尝试从产业、商业、技术、应用、投资角度,一一拆解这股科技浪潮背后力量带来的变化。
AI 发展态势全局速览
2022 年底,ChatGPT 的推出让 AI 再一次出圈。2023 年更是以大模型为代表的生成式 AI 元年,众多大厂玩家下场,大家在底层算力、通用大模型、模型参数等方面不断得竞争比拼。GenAI 的发展也不在局限于底层的基础模型,而是从技术突破到产品落地,从集成改造到社会讨论,AI 正以前所未有的速度和深度加速融入人们的生活。2024 年是 AI 技术发展重要的一年。
技术方面不断迭代:这一年里大模型进入多模态发展阶段,多模态基础模型的突破打破了传统学科的界限,推动了 AI 技术的跨领域融合。生成式 AI 在语言、图像和多模态任务中取得重要突破,应用场景日益丰富。
产业应用走向深化:AI 技术在工业、金融、内容、教育、医疗、能源、农业等多个领域的应用日益深化。例如智能工厂、无人港口、自动驾驶、智能机器人等的崛起,象征着 AI 技术的现实应用,提升了生产效率和管理水平。特别是内容影视创作领域,越来越多的创作者把 AI Agent 融入到作品创作环节链条中。
政策与伦理关注点变化:随着 AI 技术的快速发展,相关的监管立法也在不断加速。企业开始从最初的安全主义转向对快速发展的热切关注,反映出社会、经济甚至政治层面对 AI 认知的深刻变化。
全球 AI 发展格局:美国主导、中国紧随、欧洲参与
毫无疑问,美国在这场 AI 技术革命中处于绝对主导地位,中国暂时明显处于第二梯队。国际关注与认同的我国大模型主要有 Qwen2.5 Instruct 72B 与 DeepSeek V2.5(作为 2013 年 7 月份新成立的公司,不简单)。其余国家则只有法国、加拿大、以色列达到了一定水平,大部分国家在这场竞赛中都与领先国家望尘莫及。
AI 产业链:Google 实力横跨四层
Google 真不愧是宇宙级大厂,不仅啊横框全产业链四层,且每层上面表现优秀。
一般认为,AI 的产业链分为了四层:硬件层、云接口层、基础大模型层、应用层。除了少部分玩家在比拼基础大模型外,大部分玩家都在接口层基于云计算来做“二道贩”,就是说基于不同家基础大模型或搭建集成平台,或直接做垂类应用。硬件层更是需要芯片设计、封装等核心硬实力,除了专业做芯片的 Nvidia 和 AMD 外,只有极少部分玩家参与。
现代 AI 堆栈:基础模型依然主导地位
第 1 层:计算和基础模型。计算和基础模型层包含基础模型本身,以及用于训练、微调、优化和最终部署模型的基础设施。
第 2 层:数据。数据层包含将 LLM 连接到正确上下文的基础设施,无论它们存在于企业数据系统中的哪个位置。核心组件包括数据预处理、ETL 和数据管道,以及矢量数据库、元数据存储和上下文缓存等数据库。
第 3 层:部署。部署层包含可帮助开发人员管理和编排 AI 应用程序的工具,并包括代理框架、提示管理以及模型路由和编排。
第 4 层:可观测性。现代 AI 堆栈的最后一层包含有助于监控运行时 LLM 行为和防范威胁的解决方案,包括 LLM 可观察性和安全解决方案的新类别。
经过一年的快速发展,现代 AI 堆栈在 2024 年趋于稳定,基础模型仍然占主导地位。LLM 层吸引了 65 亿美元的企业投资。
然而通过反复试验,企业越来越了解数据基架和集成在构建复杂的复合 AI 架构方面的重要性,这些架构可以在生产中可靠地执行,而不仅仅是作为一次性演示。
模型参数:基础大模型规格似乎见顶
数据决定模型的上限。随着互联网上公开的可用的语料数据基本用完,大模型的规格似乎到了一定的瓶颈期,可以看到 2024 年 Q2 以来,大模型规格变化相对较小。后面的发展,要么寻找新的高质量数据,要么设计新的模型框架。数据更多时候设计隐私、安全等主题,所以预计后面会有新的模型训练框架产生。
降本增效为商业创造空间
开源模型在性能方面逐渐与营利性模型缩小差距的同时,价格也在普遍的下降,同时大模型支持的上下文窗口也提高了 32 倍,这几乎可以满足一般常见的业务场景。这就为大模型的上层大规模商业应用创新,打开了空间。
模型性能:开源与商业差距显著缩小
得益于 Meta、Mistral、Alibaba 的推动,开源大模型和商业大模型之间的性能差距,在 2024 这一年显著性的减小,这是广大创业者或者是个人开发者所喜闻乐见的,这样就可以集中主要精力在应用层,思考如何基于 AI 和业务需求设计产品。
上下文窗口:128K 成为新标准
前沿模型的中位上下文长度自 2023 年第三季度以来增加了 32 倍。扩展最初是由专有模型引领的,但截至 24 年第三季度,开源模型已经迎头赶上。最近的进展还增加了某些模型(Gemini、Nova)的最大上下文长度至 200 万个 Token。这对大部分消费级场景完全够用了。
大模型 API 价格:剧烈下降
作为 AI 产业的基础,模型 API 接口调用价格的剧烈下降,为上层商业打开了利润空间,2024 年,你能看到在 Chat 对话、图片视频、代码编辑、Worflow 等应用领域推出了很多应用产品,比如 Windsurf、Cursor 等。
大模型三大领域细分:大厂玩基础、新手卷图像视频
语言大模型:前沿模型都是大厂在玩
经过 2023 一年的比拼,技术比较前沿的通用大模型没有出现新的入局者。果然 Foundation Model 背后硬件投入和语料处理不是一般厂家玩得转的。
这一年里各家大模型能力不断迭代提升。从 gpt-4o 的交互式高质量解决问题,到 o1 那令人惊艳的推理能力,再到刚刚发布的 o3,虽然介绍稍慢,但 OpenAI 还是一往如常不断带来新的人工智能范式。
对于开发者来讲,Claude 3.5 Sonnet 出色的辅助代码体验更是让 Anthropic 给 OpenAI 带来了真正的市场竞争压力。就在这个 12 月份,闷声办大事的 Google 也通过发布 Genmini 2.0 Flash 和 Genmini 2.0 Flash Thinking 彻底打了一场漂亮的翻身仗,成功逆袭。
图像大模型:竞争逐渐白热化
2024 年的竞争更加激烈,由 DallE2、Stable Diffusion 开始的图像生成大模型领域,目前图像生成领域 Top 级的大模型大都在 2024 第三季度推出。侧面显示出了内容创作领域的巨大需求、不仅仅是自媒体从业者、影视行业、设计师等人群都是图片大模型的使用者。
视频大模型:国内进步显著
OpenAI 于 2024 年 2 月发布了 Sora 预览时,强大到当时几乎没有竞争对手,但到 2024 年 12 月正式发布时,它已经进入了一个竞争激烈的环境。得益于国内火热的短视频创作与视频数据资源,在视频生成大模型方面 Top5,国内的大模型 King、Huiluo、Hunyuan Video 分列三甲。
AI 技术进展
自从 2017 年 Transformer 发布以来,大模型在架构、性能、能力等维度有了相当量级的提升,2024 年 AI 底层技术也有不小变化。这里就主要介绍下两项技术:多模态和 AutoML。
大模型多模态突破
多模态基础模型的进展打破了传统学科的界限,推动了 AI 技术的跨领域融合。
多模态基础模型能够处理的数据模态(数据类型)不在局限在文本、图像、音频、视频、传感器等。不仅可以作为基础模型的输入,将来自不同模态的数据进行有效整合,捕捉数据模态间的相互关系和依赖性。
通过理解和生成,进行多模态的输出,这就为跨模态操作创造了可能性:
比如视觉问答方面,使用图像提问并返回用户文本或语音答案。
比如文本图像生成方面,基于 DALL-E、Stable Diffusion 等模型,可以根据文本描述生成相应的图像。
比如医疗方面,结合医学影像与患者的病历数据,辅助医生进行医学诊断。
其实作者觉得,更重要的是多模态模型通过整合多源信息,具备更接近人类的综合理解与推理能力。通过语言、视觉、声音的交互,改进人机交互的用户体验。多模态基础模型正在推动人工智能从“单一任务专家”向“通用任务专家”迈进,是未来智能化发展的重要方向之一。
AutoML 进展显著
现如今,很多行业很多场景都在追求自动化,机器学习模型的研发过程也不例外。传统机器学习需要大量专业知识(如特征工程、模型选择、超参数调优等)和流程化的处理过程,比如数据预处理、特征选择与工程、模型选择、超参数优化、模型评估与部署,AutoML(自动机器学习)就是研究怎么让这一过程自动化。
2024 年,AutoML 领域取得了显著的技术进步。进一步降低了机器学习模型开发的门槛,并提升了模型的性能和应用效率。
超参数优化技术突破:采用增强型优化算法(如贝叶斯优化、遗传算法),使超参数调优的速度和质量显著提升。
数据处理的智能化:AutoML 通过数据清洗、缺失值填补、异常值检测等功能,提升了模型的训练效率和准确性。最新 AutoML 框架(如 H2O.ai 和 Amazon SageMaker)加入了数据分布自动检测功能,适配各种数据格式。
多模态任务支持:新型 AutoML 工具已支持处理多模态数据,包括文本、图像和时间序列等,特别适用于复杂场景。如 Google 的 Vertex AI 更新引入了多模态任务支持,进一步提升了开发者处理复杂问题的能力。
模型部署与优化自动化:AutoML 从训练阶段扩展到部署阶段,可以自动选择最佳硬件资源并优化推理速度。如 Meta 的自动量化工具可以将模型大小压缩至原来的 20%,同时保持性能。
当你感觉到 2024 很多垂类大模型的出现时,一定程度上是 AutoML 加速了底层模型的训练和推理过程,极大的降低了大模型训练的门槛和加快了研发环节的节奏。
此外,2024 年大规模预训练模型(如 OpenAI 的 GPT 系列和 Google 的 PaLM 系列)持续发展,模型参数数量突破万兆亿级。量子计算在 AI 领域的应用取得初步成果,谷歌基于量子芯片“Sycamore 2”开发的优化算法,在复杂组合问题中实现了远超传统计算的性能。以神经形态芯片为核心的类脑计算在 2024 年迎来突破,新型芯片大幅降低了能耗,并展现出与生物大脑类似的学习能力。AI 驱动的脑机接口系统能够更加精准地解读人类脑电信号,为医疗康复和增强现实应用提供了强有力的技术支持。
基于行业和 AI 技术领域的多维分析
图例主要关注了六大行业:零售与消费、工业制造与自动化、医疗与生命科学、金融服务、公共部门与教育、通信媒体与娱乐。
生成式 AI 始于 NLP(Natural Language Process),相比 2023 年,基于 NLP 技术领域的行业应用普遍增长较大,特别是在工业制造与自动化方面,据了解国外发布的机器人已经应用于实际的车间生产环境。前面讲到了智能问答、知识库、以及很多 Agent 应用场景,底层大都使用的 NLP 技术栈。
其次是基于时空方面的应用,公共服务部门的应用增长最大。对应到实际项目的话就是智慧城市、智慧社区、智慧港口等,这些项目在时空 AI 方面最大的应用,就是地址的解析和地址到坐标之间的映射,作者之前从事过时空 AI 方面项目和产品设计,地址到经纬度的映射关系直接决定了,构筑上层 2、3 维图层是否准确的关键。
应用侧:AI 的主流应用场景有哪些?
程序员成为 AI 应用中的顶流
没想到吧,程序员们力压企业,成为 AI 领域最早的资深用户。编程场景的使用率排名最高,有听到一种说法,现在 90%程序员们都在隐秘得使用 AI 辅助编程工具,之所以说隐秘是因为大家都在用但大家都不说。
这里可以多补充一点,开篇的地方,作者提到了那个独立搭建小型 Web 应用,基于 AI 工具,研发时间从 3 周左右减少到 2 天。当把应用部署上线并发布的时候,整个人都是懵的,怎么可以这么快。冷静下来后仔细思考了下,计算机语言其实算是一个受限和有限环境下创作和运行的事情,这刚好就是 AI 能力范围内比较擅长的事情,即处理简单、重复的事情。
排在后面的是企业中最常见也是最痛点的场景:智能问答、知识库、会议总结。作为企业运营场景中比较重要的环节,越来越多的企业接入大模型,更好得支持到企业客服场景。
市场、营销、品牌的人员,在公司环境下经常头疼找不到想要的参考资料,因为这些资料往往散落在不同的企业软件、协作平台和在线办公文档中,如何有效的把这些内容整合起来,作为企业的知识库,很大程度上将会加快工作响应的进度。
同样的开会和会议纪要也是工作场景中比较常见的内容,AI 首先在这些场景中运营起来也不足为奇。
数字化环境下,企业越来越重视数据的价值,作为企业重要的数据部门,在 AI 工具的采用上比较明显,主要使用 AI 工具辅助数据的采集、加工处理,甚至是辅助分析等。
ROI 是老板们是否花钱的关键
生成式 AI 已经破圈,企业内各个部门都开始增加了 AI 工具的预算。价格不是问题,能不能提高 ROI 是老板们面对 AI 产品时最关心的点。
跟以往的企业应用背后是一个个功能不同,大模型应用背后是一个个模型,这是一种比较新的应用范式,能不能针对业务进行定制化,是企业考虑的关键。
RAG 是主流但 Agent 是超新星
2023 年 Prompt、微调、RAG 是听到最多的 AI 应用范式。
企业 AI 设计模式(用于构建高效、可扩展的 AI 系统的标准化架构)正在迅速发展。RAG(检索增强一代)现在以 51% 的采用率占据主导地位,比去年的 31% 大幅上升。
与此同时,微调(经常被吹捧,尤其是在领先的应用程序提供商中)仍然非常罕见,只有 9% 的生产模型进行了微调。
今年最大的突破点,Agent 架构首次亮相,成为推动大模型大规模应用新生力量,已经为 12% 的大模型实现提供支持。Agent 的核心其实就三点:知识库、插件、工作流,其中插件决定了 Agent 的能力边界,由此就可以产生千变万化的上层应用。
Agent 能够完全自主地处理复杂的多步骤任务,虽然大多数 AI Agent 尚未能在复杂用例中可靠地自主运行,但 Agent 工作流的进展非常迅速,Cognition AI 的 Devin— AI 软件工程师展示了随着 AI 计划和推理能力的不断扩展可能实现的目标。
越来越多的应用开始在受限的用例中使用 AI Agent ,以限制跨多步骤流程的累积错误的影响。例如使用 AI Agent 支持员工处理 IT、人力资源和财务相关的任务,帮助这些团队摆脱繁琐工作,提高员工体验。
新模型的出现往往具有更强的推理能力,能够进一步增强 Agent 执行更复杂工作流程的能力。有趣的是,一系列研究集中在通过链式思维、反思、工具使用、计划和多 Agent 协作等各种方法,改进 了实现 Agent 的新架构方法。特别是多模态大模型的推出,这将进一步带来一波新的应用,将近似人类的能力带入从大型企业到特定垂直领域的小企业市场,甚至激发消费类应用的巨大潜力。
投资视角看 AI 产业
生成式 AI 三大垂直应用领域:医疗、法律、金融
从这张图上可以看到,企业服务(ToB)是 AI 应用的主战场,医疗、法律、金融其实是 AI 垂类应用场景最大的三个。
但与传统企业服务专注在流程不同,AI 直接体现终端结果。当前的企业服务大都是在企业内部创建一堆角色账号,然后把全流程实现了。这种模式下的国内企服市场规模仅为美国的几十分之一。
未来 AI 公司可能不在专注流程,而是在场景+结果,专注于解决某一类人群的某些痛点,直接把以往活动运营中的一连串动作整合了,比如用户画像、人群圈选、活动方案、过程数据化实时反馈调整,之后专注于这个活动的结构,以这样的整体解决方案提供给企业。这个可能是对传统商业逻辑的颠覆。
与个人接触最紧密的一般是媒体和娱乐方向,所以像 MidJourney,Runway 等,内容创作者们使用这些 AI 工具创作图文、短视频内容,吸引了人们大量的注意力,增了不少粉丝。
2004 年的诺贝尔化学奖就授予了 Demis Hassabis、David Baker,以表彰他们的蛋白质预测方面的成就,可见 AI 生物医药领域的巨大应用潜力。
作为主要依据条文和逻辑的法律行业,法律方向是 AI 可以大有作为的应用场景之一。特别是在法律的咨询环节,可以给到咨询人丰富的法律条文和案例分析,高效得给到专业级别的法律分析服务。这个方向也很受投资者亲赖,比如 Havery AI 已经估值 7 亿美金。
新 AI 独角兽们专注在生产力工具
2024 三季度 AI 领域的独角兽公司新增了 13 家,几乎是过去几个季度的总和还多,带动 AI 领域投资量的显著增长。13 家独角兽公司包括了前 OpenAI 联合创始人 Ilya Sutskever 创建的 Safe Superintelligence,李飞飞教授的 World labs、专注于代码生成的 Codeium、专注在工作流自动化的 Harvey 等。
跟国内 AI 领域的公司专注于上层用户需求不太一样,国外创业公司似乎更专注于不直接面向消费者的生产力工具方面,比如李飞飞教授专注的 3D 世界的 AI 底层搭建。
图中还有个有意思的现象,对于大部分普通人来说,大家关注到大模型是在 2024 年的年底,而这个领域的投资起势在 2020 年年初。就是说在在“大流感”爆发期间,美国在疯狂加注 AI 直到“大流感”结束,好一个闷声办大事。
市场份额:Anthropic 成最大赢家
OpenAI 依然占据市场份额的大头,但相比 2023 年已经份额下降明显。
企业不再依赖单一提供商,而是采用了务实的多模型方法。研究表明,组织通常会在其 AI 堆栈中部署三个或更多基础模型,并根据用例或结果路由到不同的模型。
基于企业主们这样的部署思路,2024 年最大的收益者就是 Anthropic,该公司的企业影响力从 12% 增加到 24%。从人才的角度不难理解,2024 年,OpenAI 大量的人才纷纷转头 Anthropic,也许 2025 年 Anthropic 会有更多惊艳的更新或者新品。作为拥有 AI 全栈能力的 Google 也取得了不错的市场份额增长。
通用模型的研发费用占融资消耗的大头
企业生成式 AI 投资的 60% 来自创新预算,这反映了生成式 AI 的采用还处于早期阶段。然而随着 40% 的生成式 AI 支出来自更持久的预算(其中 58% 来自现有拨款),说明老板们越来越看好 AI 转型。
2024 年的人工智能投资激增至 138 亿美元,是 2023 年 23 亿美元的六倍多,表明企业正在从实验阶段转向执行阶段,切实地将人工智能嵌入到核心商业战略中。
AI 大模型企业的花销中,用于基础大模型的研发费用依然占据了融资额的绝大部分,其次是模型的训练和部署。从这个企业花费的资金量级角度,高端显卡动辄就是几万、十几万一张,普通玩家实在是玩不起。
企业需要什么样的 AI 人才
AI 发展如火如荼,背后自然缺少不了强大的人才队伍。企业在招聘的时候,对候选人技术方面企业比较关注哪些能力呢?
相较于五花八门的 AI 上层应用,企业重点关注面试者两个方面的技术能力:MachineLearning 和 Spark,前者是整个 AI 学科的基础,后者则是 AI 工程落地的关键。企业对这两项的重视程度几乎占据整体要求的一半。稍微补充一下,这个行业学历要求是硕士起步。
未来预测
2024 年,国内外基础大模型竞争格局已定(国外 5 家左右、国内 3 家左右),模型能力增长速度趋于稳定,老板、VC、PE 们都开始将注意力转移到应用层,而且大模型价格不断的下降和服务不断的完善,个人开发者也可以进场练练手脚,这个时候的大家比拼的内容,就回到了对市场、对需求的理解深度上了。2025 年大概率将是 AI 应用爆发的一年。
新的一年,人工智能会继续向 AGI 的方向前进,作者认为 AI 将从三个维度上继续深入发展。
AGI:AI 会继续向着 AGI 的方向推进,随着算法框架和模型的不断迭代和更新,AI 会继续向着智能的本质探索。在通向 AGI 之前,传统搜索市场 Google 一统江湖的情况预计会彻底瓦解,取而代之的则是垂类行业的专业搜索,如法律行业的 Harvey、像素搜索世界的 Midjourney、分析和投资行业的 Perplexity、医生行业的 OpenEvidence。
小型化:多模态的大模型会逐渐小型化和轻量化,以适应各种 IoT 设备的端侧需求。以机器人为代表 AI+硬件预计会是一个蓝海赛道。
AI 应用:RAG 技术的成熟让以 Agent 为代表的 AI 应用不断的向各行各业深入,而且随着大模型基建方面的大规模落地和基础模型层面竞争趋向稳定,大模型的价格预计会继续下降,估计 2025 年 AI 应用层会出现百花齐放情况。
关于 AI,感兴趣的朋友可以添加作者微信:devhorizon,欢迎进群(还请备注 InfoQ)或者评论区交流。
参考:
2024:the state of generative ai in the enterprise
Snowflake:AI+Data Predictions 2025
Databricks:State of Data+AI
Artificial Analysis
State of AI Q3’24 Report
Artificial Intelligence Index Report
https://www.sequoiacap.com/article/ai-in-2025/
年度钜献!2024 年大模型总结与展望(技术下篇)
版权声明: 本文为 InfoQ 作者【Taylor】的原创文章。
原文链接:【http://xie.infoq.cn/article/77cf28f0723a5f82adfcfdf8b】。文章转载请联系作者。
评论