写点什么

阿里巴巴中国电商事业群郑波:多模态智能是淘宝最重要的 AI 技术域

作者:新消费日报
  • 2025-10-24
    云南
  • 本文字数:1235 字

    阅读完需:约 4 分钟

10 月 24 日,阿里巴巴中国电商事业群首席科学家、技术总裁郑波在 CNCC2025 大会上,首次透露淘宝全模态大模型最新进展,并系统介绍了多模态智能在淘宝 AIGX 技术体系的研究和应用,包括多模态生成、生成式推荐(AIGR)、AI Agent 等多项最新技术突破。

郑波指出,从过去两年多的发展来看,AI 处理问题的复杂度每年以 5-10 倍速度增加,而 AI 的错误率每年降低 50%,模型 inference(推理)的成本每年也降低一个数量级,按照这一发展趋势,狭义 AGI(在多数开放环境任务完成度超过 95%的人类)将在未来 5 至 10 年之间实现。淘宝自 2003 年上线以来,始终坚持技术发展和商业变革双向驱动,在新的 AI 时代,多模态智能将是“万能的淘宝”最重要的技术域。



据介绍,淘宝的全模态大模型“TStars-Omni”,支持输入文本、图像、视频、音频,输出文本和音频,极大程度的对齐了人类感官。该模型在模型基座、视觉编码器、音频理解、语音合成等方面进行了深度优化,实现体量小、吞吐快的显著优势显著,性能处于领域第一梯队,并通过全面的商品理解,满足用户深层次推理需求。比如,用户输入冰箱和厨房平面图两张图片后提问:“我可以把这个冰箱放进我的厨房吗?”TStars-Omni 模型对图片进行分析推理后回答:“无法直接嵌入”,并给出建议和提醒。

在多模态生成方面,淘宝推出视频生成模型的升级版——淘宝星辰·视频生成模型 3.0。该模型采用了更紧凑的 16x16x4 时空压缩 VAE,在大幅增加 DIT 参数的情况下,保持推理的高效。高品质、类别平衡的训练数据,搭配大幅提升的语义理解模块,使得模型动作更加灵动,语义更精确,画面更原生。

郑波现场演示了多模态生成技术在电商场景中的应用。商家只需提供一件连衣裙的平铺照片,系统将匹配生成一个虚拟模特,之后生成多张模特穿着此连衣裙的、在不同场景的摆拍照片;进一步的,视频生成模型可将照片生成为视频片段,并根据首尾帧生成视频转场,再生成虚拟模特讲解视频之后,多模态剧本生成和自动剪辑技术将全自动的制作出一条完整的带货视频,大幅降低了商家的内容制作成本。

据悉,多模态智能已经在淘宝 AIGX 技术体系发挥着越来越重要的作用。淘宝自研的推荐大模型“RecGPT”已全面接入手机淘宝首屏“猜你喜欢”信息流。这款百亿参数的多模态大模型,能对 10 万量级的上下文进行总结,理解长达十年的用户信息,全模态认知数亿商品,并结合世界知识进行推理。数据显示,搭载 RecGPT 的推荐信息流实现用户点击量增长超 16%,用户加购次数和停留时长均提升超 5%。

此外,郑波还介绍了近期发布的 AI Agent——iFlow CLI。iFlow CLI 支持命令行、IDE 插件和 Agent SDK 等多种使用方式,提供完全免费的国产模型市场,涵盖编程、广告创意、学术写作、攻略制定、流程图绘制等多个应用场景,面向个人用户永久免费开放。

特别值得一提的是,为向业界共享 AIGX 技术体系创新能力,淘宝近期陆续开源了强化学习训练框架 ROLL 和生成式预估训练框架 RecIS,通过强化学习和深度学习的大模型训练完整框架,打通从小模型到超大模型的训练落地路径,为推荐系统结合多模态大模型训练提供技术支撑。

用户头像

还未添加个人签名 2022-09-22 加入

还未添加个人简介

评论

发布
暂无评论
阿里巴巴中国电商事业群郑波:多模态智能是淘宝最重要的AI技术域_新消费日报_InfoQ写作社区