个人年度总结:大模型驱动技术的趋势洞察
前言
随着大模型时代的来临,人机交互模式发生了革命性的变化,给个体创作者带来了前所未有的赋能。一方面,插件机制的出现,让平台开启了“应用时刻”,为模型的场景应用带来巨大的可能性。更有“灵魂”的数字人也有望成为下一代人机交互的入口。人机交互的革新将赋能个体成为超级生产者。而在 AI 助力产业发展方面,MaaS 服务和垂直领域应用将是大模型时代 AI 发展的重要趋势,通过建设可控、可用的安全生态,推动模型的落地和应用,AI 技术将为各行业带来更多的机遇和挑战。大模型时代带来的创新和发展,将推动人工智能走向更广阔的未来。
大模型驱动技术的趋势洞察
本趋势洞察包括以下两个方向:
AI Agent 自主代理
多模态大模型
AI Agent(自主代理)
自主代理是一种无需人工干预即可实现既定目标的组合系统。它们利用各种人工智能技术来识别环境中的模式、做出决策、执行一系列操作并生成输出。这些代理具有从环境中学习并随着时间的推移不断改进的潜力,使它们能够处理复杂的任务。AI Agent 需要感知环境、做出决策并执行适当的行动。在这些关键步骤中,最重要的是理解输入给 Agent 的内容、推理、规划、做出准确决策,并将其转化为可执行的原子动作序列,以实现最终目标。目前,许多研究利用 LLM 作为 AI Agent 的认知核心,这些模型的发展为完成这一步骤提供了质量保证。LLM 的优势:大型语言模型在语言和意图理解、推理、记忆甚至移情等方面具有强大的能力,可以在决策和规划方面发挥卓越的作用。再加上预先训练的知识,它们可以创建连贯的行动序列,并有效地执行。此外,通过反思机制,这些基于语言的模型可以根据当前环境提供的反馈不断调整决策和优化执行序列。LLM 的应用:LLM 为 Agent 研究提供了一个非常强大的基础模型,在与 Agent 相关的研究中,LLM 开辟了许多新的机会。例如,我们可以探索如何将 LLM 的高效决策能力整合到传统的 Agent 决策框架中,使 Agent 更容易应用于对专业知识要求较高且以前由人类专家主导的领域。此外,Agent 研究不再局限于简单的模拟环境,现在可以扩展到更复杂的真实世界环境中。总之,自主代理是一种具有自主性、反应性、积极性和社交能力特征的智能实体。它们利用各种人工智能技术来识别环境中的模式、做出决策、执行一系列操作并生成输出。这些代理具有从环境中学习并随着时间的推移不断改进的潜力,使它们能够处理复杂的任务。模式变革(Agent 是下个智能化的趋势,也是成为通向 AGI 的关键路径和必经之路):
模式范式:
定义一个 AI Agent,以下是一个简单的示例:
多模态大模型
多模态 GenAI 是一种新兴的变革性技术,它能够将不同类型的数据输入和输出进行组合,包括图像、视频、音频、文本和数字数据。这种技术使得生成式人工智能更加灵活和多功能,能够应对多模态数据的挑战。多模态 GenAI 的市场渗透率还不足目标受众的 1%,但它具有潜力在企业应用中产生变革性的影响。其重要性在于能够处理现实世界中多种数据类型的复杂关系,从而扩展了人工智能的应用范围。多模态模型通过高技术供给量塑 AI 技术范式。多模态模型通过融合语言模态与图像模态,将语言模态包含的文本理解与思维链能力投射在图像模态上,赋予了模型图像理解与生成功能。从 AI 技术范式来看,多模态技术通过预训练+调参的方式颠覆了传统机器视觉小模型 CNN 高度定制化的业务模式,模型的泛用性大幅度提高。从 AI 商业模式来看,产业的话语权逐渐由应用端走向研发端,即改变了之前完全由客户定夺市场 (项目制考虑单一任务投入人力、算力、周期计算项目金额) 转向由技术定义市场(MAAS,客户无法估测基础模型摊薄成本,基座模型大力投入限制参与玩家,话语权降低)。趋势 1:端到端统一多模态大模型
趋势 2:多模态学习单模任务类大模型
趋势 3:基于 Agent 的控制多模态大模型
评论