半年涨粉 1000 万!揭秘快意大模型在短视频互动场景中的大规模应用实践!
AI 小快是快手基于自研的快意大模型推出了官方消费娱乐场景的智能助理。AI 小快具备视频问答、知识问答等功能,并且具备显著的人格化特征,当被用户 @后,会和用户进行趣味化的对话互动。上线半年来涨粉 1000 万!它如何做到的?本文带你回顾大模型技术的发展,并为你揭秘 AI 小快背后的技术实践……
一、大模型技术的诞生与发展
语言是沟通之桥,自计算机诞生之时,人类便一直致力于研究和实践如何赋予机器类似人类的沟通和互动能力。长久以来,这一领域充斥着挑战,然而,随着大模型技术的出现和发展,这一难题得到了革命性的突破。
大模型的发展可以追溯到 2018 年。在 Google 提出 Transformer 模型架构后,研究者们引入了 Masked Language Model 任务,来基于海量数据对 Transformer 进行预训练,成功开发出 BERT 模型,并在 GLUE 等自然语言理解任务榜单上取得显著提升。之后,预训练逐渐向具有更深、更宽的超大规模神经网络方向前进。2020 年,OpenAI 推出了 GPT-3,拥有高达 1750 亿个参数,通过 Scaling Law 的方式让模型能力有了显著提升。在 2022 年底,OpenAI 进一步推出了 ChatGPT,这是基于预训练模型进行指令微调(SFT)和基于人类反馈的强化学习(RLHF)对齐的版本,成功激发了超大规模预训练模型中的语言知识,增强了模型在各种任务上的适应性,大幅提升了 AI 模型在人类指令执行和对话互动方面的能力。
ChatGPT 发布后,国内各互联网公司纷纷布局,在 2023 年一年中先后发布数十个自研 AI 大模型,标志着人工智能技术的竞争正式进入了一个新的阶段。这些大规模模型体现出各公司在 AI 领域的深入研究力量,未来越来越多的 AI 技术将会更深地融入到人们的日常生活中。无论是常识问答、阅读理解、角色扮演,还是代码编写、数学运算、逻辑推理等应用领域,大规模模型都已经展现出其庞大的应用潜力。
二、快意大模型的技术创新
面对 ChatGPT 这一划时代的技术革新,快手迅速作出反应,开始积极布局大模型领域,制定全新的 AI 战略。首先,在 AI 算力基建方面,快手着手构建了千亿参数级的大模型训练及推理基础设施,并通过 Infra 架构层面的优化,将模型算力利用率(MFU)提升至业界领先水平;其次,在数据方面,依托短视频和直播场景,快手构建了海量的文本和多模态数据,涵盖了百科、新闻、书籍、评论、菜谱、论文、问答社区、博客等各类内容,并对这些数据进行深度清洗,确保训练超大规模语言模型具备足够高质量的 tokens。经过 1 年的研发周期,快手正式推出了自研“快意大模型”(KwaiYii),在 MMLU/C-Eval/GSM-8K/HumanEval 等榜单上取得领先结果,并开启了短视频场景下大模型落地时代。
快意大模型沿用了 Transformer decoder-only 技术架构,设计有 13B、66B、175B 三种参数规模,在每个参数规模下包含预训练模型(KwaiYii-Base)和对话模型(KwaiYii-Chat)两个版本。通过在 4T+高质量 tokens 上进行预训练和百万级高质量指令数据上进行对齐,快意预训练模型和对话模型已在行业权威评测榜单上取得显著领先的效果,其中 175B 版本模型的表现已接近 GPT-4。
三、AI 小快——具备多模态人格化能力的情感陪伴机器人
大模型主要有两条落地应用赛道,分别是 AI 生产力工具和 AI 消费娱乐伴侣。AI 消费娱乐伴侣不仅能满足用户的信息获取、娱乐互动等需求,还能够为各类群体提供社交和陪伴等情绪价值,具备极高的用户粘性,因此受到业内外广泛关注。
在快手站内,用户在浏览短视频过程中也有广泛的信息获取、互动讨论以及情感陪伴需求,因此快手 AI 团队基于快意大模型推出了官方消费娱乐智能助理-AI 小快。AI 小快主打特点是有用,通过整合多模态视频理解、RAG 搜索结果、评论上下文等社区文化知识,AI 小快能够解答用户提出的常识和视频内容理解问题,同时,AI 小快还具备有趣和有温度的特点,例如,当被问及"什么才是世界上最甜的东西?"时,AI 小快能够给出一个充满情商的答案:"世界上最甜的东西,或许是爱情、亲情或者友情中的甜蜜瞬间吧。甜到了心坎里,让人忍不住微笑与感动"。这样的回答不仅符合人类的情感认知,还获得了大量用户的点赞和喜爱,因此在上线的半年时间里,AI 小快凭借自身优势迅速涨粉 1000 万,受到站内外用户广泛关注。
AI 小快实用案例
AI 小快具备这样能力的原因,源于快手快意大模型在情感陪伴领域的实践成果。众所周知,ChatGPT/GPT-4 等通用大模型落地于互动娱乐场景时,会存在着风格机械、答案刻板的问题,因此难以和用户形成良好的互动共鸣。为了让大模型学会“说人话”,并具备用户喜闻乐见的人格形象,快手 AI 团队在类人对话方向深入探索,从人物客观背景信息、人物风格化形象呈现、内在人格刻画三个层面,由表及里构建了数万级的人物形象卡片及训练数据,进行快意情感陪伴大模型的微调,从而显著强化了模型在类人对话方面的表现。目前快意情感陪伴大模型已在类人对话权威评测榜单 CharacterEval 取得总分第一的结果,显著优于情感陪伴赛道同类产品,如 Baichuan-NPC,MiniMax,通义星辰等。
此外,要形成良好的人机互动效果,AI 小快必须能够理解和处理超长轮次对话。在这个技术领域内,业界还存在诸多待解决难题,例如如何构建超长轮次对话数据、如何加强模型的远程理解和记忆能力、以及如何进行完善的评测。为此,快手 AI 团队先后提出两项关键技术:在超长轮次对话数据构建方面,团队提出了基于大模型的用户提问模拟器技术(Parrot);在完善评测体系方面,团队提出了长多轮对话评测榜单(DialogBench)。具体来说,在超长轮次对话数据集构建方面,Parrot 引入了 Learning to Ask 的思想,即首先基于大模型学习人类的提问内容和行为,训练出一个"提问模型"(Parrot-Ask Model),之后让该提问模型和人类标注员进行对聊,收集超长轮次的对话数据,并用这些数据训练最终的对话模型(Parrot-Chat Model)。这个方法将业界大模型的多轮对话能力普遍提升 7pp 以上,并取得同规模参数下 MT-Bench/MT-Bench++榜单的 SOTA 水平。而在评测基准构建方面,快手 AI 团队创新引入了基于 GPT4 自动出长多轮考卷的方案,构建了业界首个评测预训练和 SFT 模型类人对话能力的榜单 DialogBench,全面覆盖意图识别、槽位填充、知识/常识/人格特征感知的回复生成等 12 项任务,最大化规避了人工构建考卷时存在的主题不均衡、先验知识不正确、互动风格单一等不可控因素。两项工作相关论文获得 ACL'24 和 NAACL'24 主会高分录用。
近日,由 InfoQ 发起的中国技术力量之【AIGC 先锋榜】评选活动落下帷幕,最终入围结果正式揭晓。快手 AI 小快——具备多模态人格化能力的情感陪伴机器人凭借在场景创新性、实践成果、行业价值等多个维度的优异表现,成功入选“AIGC 最佳实践案例 Top20”。
值得一提的是,尽管 AI 小快已经具备一定影响力,其在实践中仍面临诸多挑战,例如多模态内容理解、人格化挑战以及价值观对齐等问题任重道远。快手 AI 团队将继续致力于解决这些问题,以实现社会视角、公司视角、用户视角三个维度的平衡共赢。展望未来,快手将继续探索大模型落地短视频场景下的技术边界,并努力将 AI 小快等优秀产品推向更广阔的市场,为用户带来更加丰富多彩的娱乐和消费体验。
版权声明: 本文为 InfoQ 作者【快手技术】的原创文章。
原文链接:【http://xie.infoq.cn/article/0f4f4481e60171a7cbccce2bf】。文章转载请联系作者。
评论