京点点 AIGC 平台:实现高效、可控、智能的多模态内容生成和优化
作者:京东零售 高继航
1 前言
2024 年,京东零售技术自研的京点点 AIGC 内容生成平台(以下简称“京点点”)已覆盖电商运营涉及的 20+核心场景,AI 能力单日调用超 1000 万次。“京点点”致力于电商场景下商品内容、营销素材的智能化、自动化生产和运营,已帮助京东 35 万+第三方商家一键 AI 生成店铺运营所需的商品图片、运营与营销文案,提升内容制作效率和效果,降低商家内容制作成本。
“京点点”融合了电商内容生成、可控生成技术和多智能体协作等多种技术的融合创新,代表了 AI 技术在电商领域应用的最新突破,实现了高效、可控、智能的多模态内容生成和优化,荣获“infoQ 2024 中国技术力量年度榜单-2024 年度 AI 最佳实践案例/方案”奖项。本文将对京点点实现高效、可控、智能的多模态内容生成和优化的创新实践进行介绍。
2 背景介绍
2.1 业务场景
“京点点” https://ai.jd.com/ 是一款专为电商人打造的 AI 设计工具,平台基于大模型+AI 能力改变传统的零售、电商内容生产模式,覆盖 AI 图片设计、AI 文案写作,无需专业人员,小白点一点就能生产专业的电商内容素材。
“京点点”已上线了三大 AIGC 能力:一是 AI 商品图生成,用户上传商品普通拍摄图或白底图,系统可自动抠图并结合电商数据推荐合适的场景模板,生成高质量商品场景图,还能 AI 添加商品核心卖点文案、营销利益点等变为商品主图、商品详情图、商品营销图等素材;二是 AI 营销文案生成,用户输入京东商品 SKU 编号或名称,系统能从相关商品中提取卖点信息,按用户需求的文章风格生成营销文案;三是面向所有设计师的风格模型训练平台,可根据设计师的风格倾向需求,对商品场景图、营销设计元素、营销海报图等进行云端自助 lora 训练,实现精准控制和快速出图。
目前,“京点点”面向京东商家、集团员工、京东生态伙伴进行全量开放,同时能力接入到京东各个核心 B 端产品中,包括智能抠图、智能文案、商品场景图/模特图生成、AI 搭配购等功能,提升商家内容制作效率和效果,降低商家内容制作成本。
2.2 技术挑战
在“京点点”打造与业务实际应用过程中,AI 内容生成技术面临着以下几个方面的技术问题:
(1)数据处理难度大
电商行业涉及海量的商品信息和用户数据,如何有效地收集、整理和分析这些数据,以训练出准确的文生图基底模型,是一个巨大的挑战。海量的零售图片数据需要进行高效处理和分析,这不仅需要强大的计算能力,还需要先进的数据处理技术和算法,以确保数据的质量和准确性。
(2)图像生成精准控制困难
在电商领域,商品图像的质量和效果直接影响消费者的购买决策。因此,如何精确控制图像的轮廓、风格、视角和布局,同时确保商品的一致性,是一个亟待解决的问题。传统的图像生成技术往往难以实现对图像的精细控制,导致生成的图像无法满足电商企业的个性化需求。
(3)营销文案生成的准确性和风格问题
营销文案是电商内容的重要组成部分,它不仅需要准确地传达商品的信息和特点,还需要具备吸引消费者的语言风格。然而,大模型幻觉问题导致营销文案的准确性和语言风格难以满足实际需求,这使得电商用户在营销推广方面面临着一定的困难。
(4)模型优化与适应性
电商市场变化迅速,消费者的需求和喜好也在不断变化。因此,如何根据用户反馈和市场趋势不断优化生成模型,使其更好地适应电商业务的实际需求,是一个持续的挑战。传统的模型往往缺乏灵活性和适应性,难以快速响应市场的变化。
3 技术实践
3.1 技术创新和实践
为了解决上述问题,“京点点”进行了一系列的技术创新和实践,致力于为电商行业提供高质量、高效率的内容生成解决方案。
(1)先进的文生图基底
•海量数据训练:“京点点”通过使用海量的零售图片数据训练京东的文生图基底模型。这些数据涵盖了各种商品类型、风格和场景,使模型能够对商品和销售有更深入的理解。为了提高数据处理效率,平台自研了高效海量数据处理平台,能够快速生产和迭代基底训练数据。
•先进技术框架:基底模型采用了 DiT 框架和 Flow Matching 技术,实现了快速进化。DiT 框架是一种基于深度学习的图像生成框架,它能够有效地捕捉图像的特征和结构,生成更加真实、自然的图像。Flow Matching 技术则是一种用于图像生成的概率模型,它能够提高生成图像的多样性和准确性。通过这些先进技术的应用,“京点点”能够在商品主图、商品详情、营销、广告等场景中生成更加真实、合理的图片资产,为电商企业提供更具吸引力的视觉内容。
(2)Zero-Shot 可控生成框架
•图像特征一致性注入:自主研发的 ReferenceNet 能够实现对图像特征一致性的零样本注入。这意味着在不需要大量标注数据的情况下,平台可以以极低的成本确保商品的一致性。通过 ReferenceNet,平台能够提取商品的关键特征,并将其应用于图像生成过程中,从而保证生成的图像能够准确地反映商品的特点和属性。
•精确图像控制:自研的 ControlNet 可以对图像的轮廓、风格和布局进行精确控制。与传统的图像控制技术不同,京点点 的 ControlNet 解决了业内 ControlNet 对基础模型的负面影响,在良好控制下不会降低基础模型的生成效果。这使得平台能够根据商品的特征和风格需求,生成高度真实且富有创意的图像,为商品展示提供更加生动、吸引人的视觉效果。
(3)多技术融合创新
•多模态商品理解模型:在营销文案生成方面,“京点点”自研了多模态商品理解模型。该模型能够综合分析商品的图像、文字描述、用户评价等多模态信息,构建商品的 FAB(Feature, Advantage, Benefit)知识库。这个知识库涵盖了商品的规格参数、优势、用户使用场景等多维度信息,为营销文案的生成提供了丰富的素材和依据。
•RAG 方案与知识融合:平台使用 RAG(Retrieval-Augmented Generation)方案结合商品知识与大语言模型能力,撰写事实准确且语言风格接地气的营销文案。RAG 方案通过在生成过程中引入相关的知识和信息,有效地改善了大模型幻觉问题,提升了营销文案的写作效果。生成的营销文案不仅能够准确地传达商品的信息和特点,还能够以生动、有趣的语言风格吸引消费者的注意力,提高商品的销售转化率。
(4)强化学习与优化
•用户反馈与数据驱动优化:“京点点”引入了强化学习机制,根据用户反馈和京东商品数据,不断优化生成模型的参数和策略。通过收集用户的行为数据、评价数据和购买数据等,平台能够深入了解用户的需求和喜好,从而针对性地调整生成模型的参数和策略,使生成的内容更加符合用户的期望。
•紧密结合电商业务:平台与实际电商业务紧密结合,实时调整生成策略。根据市场趋势、商品销售情况和用户需求的变化,平台能够及时调整内容生成的方向和重点,为电商用户提供更加具有针对性和时效性的内容。例如,在促销活动期间,平台可以生成更多与促销相关的营销文案和图片,以提高活动的效果和影响力。
3.2 技术实践效果
“京点点”面向京东商家、集团员工、京东生态伙伴进行全量开放,同时能力接入到京东各个核心 B 端产品中,包括智能抠图、智能文案、商品场景图/模特图生成、AI 搭配购等功能。帮助用户在商品图、商品营销文案等内容制作的效率提升高达 95%以上,从原来的天级降低到秒级。成本由原来单张商品图 50-2000 元降低 99%以上。
以 AI 生图为例:
在图片生产人力与时间、生产成本、生产效果等方面,“京点点”AI 生图相较传统人工生产有显著优势。如在家装 2D 场景图场景和时尚穿搭试衣场景中:
AI 生图相比传统人工作图具有显著优势。从人力与时间方面看,传统人工制作家装 2D 场景图和时尚穿搭试衣图均为 10 张/人/天,而京点点 AI 生图分别可达 5000 张/0.1 人/天,内容制作的效率提升高达 95%以上。在成本上,传统人工制作家装场景图 500 元/张,时尚场景图 2000 元/张,而京点点 AI 生图的内容制作成本降低超过 99%。此外,京点点 AI 生图无需物理空间和专业设计师,实习生即可完成符合业务质量需求的图片,这进一步减少了对内容生产专业资源的依赖,为家装和时尚领域带来了新的可能性。
3.3 技术与资源投入性价比
除了要达到最佳的生成质量,还需要尽可能减少资源投入,实现业务应用的最佳投入产出。“京点点”创新性地采用了大模型加速方案和大小模型联合推理技术算法,针对电商领域的特定需求,显著提升了资源利用效率,相较于传统的单一大模型方案,在内容生成质量效果一致的情况下,资源投入度减少高达 90%。以下是对两种技术方案的详细对比分析:
3.4 技术实践突破原因
“京点点”能够取得这些技术实践突破,主要得益于以下几个方面:
(1)业务引领用户为先: “京点点”始终以业务发展为引领,和京东家部、京东时尚、京东大商超、京麦、京准通等兄弟业务部门紧密合作,围绕电商行业的需求和趋势,不断探索新的技术应用和业务模式。通过精准的行业洞察和业务规划,“京点点”AI 生成能力实现业务的快速增长。
(2)专业的技术团队:“京点点”拥有一批专业的算法、技术人才,他们具备丰富的人工智能和电商领域的经验。这些技术人才不断探索和创新,深入研究电商行业的需求和痛点,致力于解决技术难题,推动平台的技术发展和应用。
(3)平台数据优势:依托京东丰富的电商数据资源,“京点点”能够为模型训练提供大量的高质量数据。这些数据涵盖了商品信息、用户行为、市场趋势等多个方面,为模型的准确性和泛化能力提供了有力的支持。通过对这些数据的深入分析和挖掘,平台能够更好地理解用户需求和市场动态,从而为电商用户提供更加精准和有效的内容生成服务。
(4)持续投入和研发:公司对“京点点”的研发给予了高度重视,不断投入资源进行技术改进和优化。这种持续的投入和研发使得平台能够始终保持领先的技术水平,不断推出新的功能和服务,满足电商行业不断变化的需求。
4、未来展望
通过“京点点”探索电商领域中 AI 技术与内容生产协同的前沿应用,解决了行业中电商内容生成效率低下、内容生产成本高、内容生产质量参差不齐的问题,提供了宝贵的实践经验和可复制的模式。未来我们也将在以下几方面继续投入资源打造提升:
(1)生成式技术优化与升级,用户一键出“好”图
“京点点”将继续致力于生成式技术的优化与升级,通过模型改进、效率提升、多模态融合、多智能体协同等技术优化,提升 AI 生成内容结果的质量、效率,从而生成更加高质量、符合用户需求的内容。从用户一键出图到一键出“好”图的提升。
(2)融入业务数据的 AI 生成,工具到经营助手进化
当“京点点”生成内容的质量达到基础要求后,通过融入业务客观的数据反馈,如商品主图分析关注、点击、转化效果好的内容所具有的特征,以此反哺大模型,使其能够进行持续的自学习和训练进化。这样一来,京点点生成的内容就能更好地适应市场需求的变化,能够及时帮助用户调整自己经营策略,提高市场反应速度,激发创新活力,从而推动用户经营提升。
(3)加强与业务的深度融合,拓展更多 AI+应用场景
“京点点”团队更加紧密地与业务团队合作,深入了解业务需求,不断优化内容生成策略,以提高商品的销售效果和用户体验。除了现有业务领域家装 2D 搭配场景图、时尚 AI 穿搭、京麦商家 AI 提效等联合共建 AI+业务场景外,我们将探索将 AI+应用于更多的业务领域,为更多业务领域提供高效、智能的内容创作解决方案。
(4)打造更多普适性与可复制性的 AI 生成技术解决方案
“京点点”采用了电商场景的文生图基底、Zero-Shot 可控生成框架、多智能体协同、强化学习与优化深度整合的技术路线,有效克服了通用大模型在特定产业应用中的能力瓶颈,包括专业领域知识精准度不足、复杂任务处理能力有限,以及单一模型难以实现高效多模态协同等问题。通过模块化设计、可插拔的智能体架构以及灵活的领域知识注入机制,确保了系统在不同电商场景中的高度适应性和可扩展性,将来将打造更多普适性与可复制性 AI 生成技术解决方案,如 AI 生成视频、AI 生成音频等,为其它行业、京东其它产品在面对类似挑战时提供了系统化的解决方案和可借鉴的技术框架。
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/17ac2dd1e6108059ad74a5457】。文章转载请联系作者。
评论