豆包,大模型的磁力三重奏
如今,很多媒体与 AI 从业者都在追问一个问题:大模型,究竟堵在哪了?
经历了 2023 年的百模大战,AI 产业迎来了从“是否有大模型”到“如何用大模型”的转换期。各个大模型平台纷纷走向了公开应用阶段,面向 C 端与 B 端提供能力繁多的大模型应用。
然而问题也随之而来。在大模型平台百花齐放的同时,我们也能发现平台之间的同质化急速加剧。C 端用户很难分清不同大模型应用之间的差异化,企业用户面临着复杂的大模型应用成本,进而导致真正能够实现规模化调用的大模型寥寥无几。
在技术相对成熟之后,大模型与用户之间,似乎还是缺少了一点磁力。
我们经常讨论,没有任何底层技术可以不经过产品化探索,不进行商业逻辑设计就获得用户认可。技术、产品、商业,三者之间一定是互为犄角的态势,缺一不可。而在百模大战的进程中,行业往往会更重视模型本身的技术发展,忽视产品化与商业设计的重要性。这种缺失与真空,也就是大模型缺乏用户磁力的来源。
好在随着时间推移,类似难题正在得到正视和解决。不久之前,在火山引擎 2024“AI 创新巡展”成都站期间,火山引擎宣布豆包大模型日均 Tokens 使用量已突破 5000 亿,平均每家企业用户日均 Tokens 使用量较 5 月 15 日模型发布时期增长了 22 倍。
豆包大模型的高增长,或许正是给大模型的用户磁力难题,写下了一张答卷。
被广泛讨论的大模型的商业难,落地难,究竟来源于何处?
从软件技术走向应用的时间逻辑上看。基础软件技术迭代之后,往往需要较长的产品化周期,进而其中优秀的产品最终走向商业化。但大模型风潮与以往不同,其技术特征中本身就有极强的应用色彩。这导致 AIGC 类平台与应用的爆发,基本没有经历任何的产品化周期,而是直接从算法革新走向了商用落地。
这种特殊的发展方式,让大模型短期内走到了“两多一快”的境地:市场上的大模型应用多,单一大模型应用提供的 AIGC 能力多,从技术走向商用的时间快。于是,用户还没来得及了解,眼前就被摆满了花样繁多的大模型应用;企业用户还没有准备好大模型的应用场景与商业逻辑,就被智能化热潮裹挟其中。
大模型带来的全新应用可能性,原本应该与用户形成极强的磁力,但大模型的同质化,与用户的没有准备好之间,反而形成了一种“消磁”效应。具体来看,我们可以将其拆解为三个问题:
1.C 端消磁。产品体验感的缺失,以及技术的雷同化,让用户难以体会到大模型的魅力所在,进而在尝鲜期过后,快速出现了对大模型应用的搁置。
2.B 端消磁。过高的尝试成本,让企业在还没有准备好实用大模型的时候,就需要付出较大的模型部署成本,从而导致大量企业倾向对大模型进行观望。
3.行业消磁。快速成型的大模型体系,更多提供的是通用性较强的能力。然而众多行业需要的是专业化、定制化的 AI 功能,不能充分了解行业需求,导致大模型能力浮于行业表面,无法深入其中。
2023 年 8 月,字节旗下的首款类 GPT 应用豆包正式发布,很快攻陷各大应用市场。目前豆包底层的大模型已经应用于字节内部各大业务,覆盖了协同办公、数据分析、文案创作、辅助编程、内容审核等场景。当这个大模型最终以“豆包大模型”的名称正式发布走向市场,所需面对的最大挑战就是如何建立 AI 与用户之间的磁力,打通大模型的商业化落地空间。
此后的近一年时间里,我们能看到豆包带来了关于大模型磁力的三重奏。
经历了快速的技术迭代与产品梳理,如今“豆包”的定义更加明确和统一。它表面是一款类 GPT 的应用,背后实际是一整个豆包模型家族,而与底层大模型同名的豆包 APP,则是字节通过模型升级产品体验,与 C 端用户重新建立磁力的通道。
为了破解大模型应用缺乏魅力,产品同质化太高的问题,豆包贯彻了一个核心产品设计原则,拟人化。
从 AI 命题被提出的那一刻,这种技术的核心就是让机器模仿人。而伴随着无数科幻作品的熏陶,大众对 AI 魅力的认知与期待也都在于拟人。但要注意的是,AI 拟人的目标并不能仅仅依靠技术手段来实现。而是需要产品层面的更多雕琢。
为了实现豆包的拟人化,相关团队在多个层级进行了一系列产品设计。比如说,依靠豆包家族里的语音识别模型和声音复刻模型,进而实现与其对话贴近与真人对话的感觉。
在进入豆包聊天界面后,用户会感觉到与社交软件非常相似的产品设计。比如说,聊天框顶部有对话头像,这一点继承了用户与真人聊天的产品习惯。
在豆包大模型家族中,还推出了角色扮演模型。这个模型当中,AI 会模仿不同人设、不同性格的人来与用户进行对话,并且可以通过智能体来自行设定聊天角色。将拟人化作为核心功能之一,可以快速拉近与用户的距离,消弭掉用户对 AI 技术的陌生感。
具体到 AIGC 能力当中,豆包同样强调拟人化思路的贯彻。比如豆包在进行 PPT 制作功能时,在 PPT 生成之外还会提出制作 PPT 所需注意的问题。这就非常类似于朋友或同事进行合作时的情况,而不仅仅是简单的 AI 工具。
在拟人化核心特性的加持下,豆包很快得到了用户群,尤其是年轻用户的认可。随后,豆包的战略权重开始不断上升。形成了具有多模态能力的模型家族,包含了通用模型 pro、通用模型 lite、语音识别模型、语音合成模型、文生图模型等十款模型。
豆包虽然是 AI 模型,但其差异化恰好在于对“人”的重视。通过精细的拟人化产品设计,其完成了对大模型同质化问题的摆脱。
而在产业端,豆包也将这种直面问题核心的思路贯彻了下去。
面对大模型机遇,各行业以及无数 AI 开发者都跃跃欲试。但较高的模型使用成本,依旧会给企业进行大模型探索、试错造成一定的影响。尤其伴随业务的不断发展,大模型成本也会不断上升。在真正推动大模型落地前,成本账是企业用户必须先算清楚的。
与此同时,大模型的开发方面临着另一重困境。模型的调用量不足,开发者生态无法成型,直接导致大模型无法根据反馈进行优化调整,单位模型的推理成本也居高不下。因此,只有用起来才是大模型的唯一出路。对于大模型本身和企业用户而言,中间的成本门槛已经成为双方共同的困扰。
在这样的态势下,豆包率先进行了大模型低成本化的商业思路。豆包大模型目前通过字节跳动旗下云服务平台火山引擎面向企业开放,5 月 15 日,豆包大模型正式发布之时,火山引擎宣布豆包主力模型在企业市场的定价已经达到了 0.0008 元/千 Tokens,0.8 厘就能处理 1500 多个汉字。这个价格已经降低到了此前行业通行方案的 1%还低。
豆包率先推动大模型进入“厘时代”,为企业降低智能化成本带来了巨大的影响。整个行业开始跟随和效仿,企业以更低成本、更便捷方式接入大模型成为新的主流。
尤其值得注意的是,与行业内流行轻量化版本降价,吸引企业用户试用,然后主力模型保持较高价格的思路不同。豆包将主力模型与轻量化模型都进行了大幅价格优化,主力模型给出了低于行业价格 99%的定价。为企业用户与大模型之间的深度结合,扫清了最后的障碍。
除了大众用户与企业用户之外,大模型落地的很大一部分动力,来自全行业模式的驱动。大模型可以伴随着行业头部用户的使用,快速在行业轨道中进行复制和推广,从而深度加强行业智能化水平。
在这个过程中,大模型了解行业,深入行业成为最主要的挑战。而想要解决它,也只有真正走进行业,与行业达成生态合作这一条通道。
不久之前,火山引擎联合中国电动汽车百人会,与吉利汽车、长城汽车、捷途汽车、赛力斯、智己汽车等 20 余家厂商,宣布成立汽车大模型生态联盟,致力于为消费者带来汽车全场景 AI 新体验。
通过生态合作,火山引擎可以获得更加清晰的汽车行业智能化诉求,从而让豆包给出更有针对性与专业性的落地方案。比如说,当前车企愈发重视用户反馈,但伴随网络信息量的爆炸,人工收集网络反馈的方式低效且不够全面。豆包大模型可以帮助车企进行反馈信息收集,并且进行初步分析总结,从而实现智能化的信息筛选与分类,提取出车主的主要关注点与情感倾向。
此外,豆包可以在汽车行业的多个角度、多个场景实现落地。比如搭载了豆包 lite 大模型后,车企可以在低延迟情况下为用户提供清晰、智能的 AI 对话能力,支持闲聊、搜索、娱乐、导航、车控等多个座舱智能助手场景,效果要比传统语音处理高达 50%以上。在智能座舱、智能驾驶场景中,AI 对话将成为十分重要的交互手段。豆包与汽车行业的深度融合,解决了车内语音交互的系列痛点。
类似豆包与汽车的结合,火山引擎还与 OPPO、vivo、荣耀、小米、三星、华硕成立了智能终端大模型联盟。OPPO 小布助手、荣耀智慧办公智能助手、小米“小爱同学”,以及华硕笔记本电脑的豆叮 AI 助手等应用,均已接入火山引擎的大模型服务。
可以看到,拟人化、低成本、重生态,已经成为豆包大模型的三个支点。它们在技术之上,为豆包大模型提供了产品、商业与产业合作层面的竞争力,消解了大模型同质化带来的落地难题。
用对用户的尊重,对问题的正视,来重构大模型的磁力。这或许才是日均 Tokens 使用量破 5000 亿背后,豆包身上值得被提取出来的“营养物质”。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/00f758e948ef1f1c9c0b4af1d】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论