AIGC 周报(2.19~2.25)
一文带你回顾上周(2.19~2.25)AIGC 行业发生的热门事件。
大世界模型 LWM,能处理 1M token 上下文和 1h 的 YouTube 视频
当前的大语言模型在理解现实世界上不易用语言描述的方面存在不足,虽然视频模型可以加深对人类文本知识和物理世界的理解,缓解这一问题,但是由于内存限制、计算复杂性和有限的数据集,给训练带来了挑战。
为了解决这些挑战,来自 UC 伯克利的研究者整理了一个包含各种视频和书籍的大型数据集,利用 RingAttention 技术对长序列进行可扩展训练,将上下文大小从 4K 增加到 1M token。并且提出了 Large World Model(LWM,大世界模型),可以执行语言、图像和视频理解和生成,能回答超过 1 小时 YouTube 视频内容。
AI 语音公司 ElevenLabs 给 Sora 视频配音
AI 语音公司 ElevenLabs 使用 AI 技术给 Sora 生成的经典视频进行配音,细节满满,效果令人惊叹!
[InfoQ 不方便展示视频,点击文章底部链接查看]
新型处理器 LPU,在大语言模型任务上比 NVIDIA GPU 快 10 倍
初创公司 Grop 开发出一种机器学习处理器 LPU(语言处理单元),一种新型的端到端处理单元系统。在大语言模型任务上比 NVIDIA(英伟达)的 GPU 快 10 倍,而且成本仅为前者 10%。
[InfoQ 不方便展示视频,点击文章底部链接查看]
大型多视图高斯模型 LGM,生成高分辨率 3D 对象
在 3D 对象生成方面,虽然前馈模型可以在几秒钟内生成 3D 对象,但是其分辨率受到训练期间所需的密集计算的限制。来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了大型多视图高斯模型 LGM,可通过图像生成 3D 对象,实现了 5 秒内生成 3D 对象的同时将训练分辨率提高到 512。可体验在线DEMO。
Google 开源大模型系列 Gemma
Google(谷歌)也加入了开源大模型的行列中,发布了一系列最新的开放式大型语言模型 Gemma。此次提供了两种规模的模型:7B 参数模型,针对消费级 GPU 和 TPU 设计,确保高效部署和开发;2B 参数模型则适用于 CPU 和移动设备。虽然规模较小,单在关键基准测试中明显超越了更大的模型,例如 Llama-2 7B 和 13B、Mistral 7B。
国内 AI 大模型公司 月之暗面 完成新一轮超 10 亿美元融资
AI 创业公司 月之暗面 完成新一轮超 10 亿美元融资,投资方包括红杉中国、小红书、美团等,这是迄今为止国内 AI 大模型公司单轮最大金额融资。本轮融资后,月之暗面估值已达约 25 亿美金,成为国内 AI 公司独角兽。该公司产品有 人工智能助手Kimi等。
Stability AI 发布最新文生图模型 Stable Diffusion 3
Stability AI 发布了其最新也是最强大的文生图模型 Stable Diffusion 3,在多主题提示、图像质量和拼写能力方面的性能得到了极大提高,生成的图像细节拉满。
Google Gemini 文生图功能惹争议,被紧急关闭
Google(谷歌)发布的 Gemini 系列多模态大模型给行业带来了很大的震撼,能力和 GPT-4 平起平坐。但是文生图功能却有些拉垮,引起了不少的争议,例如拒绝在图像中描述白人的形象。Google 承认了 Gemini 图像生成的问题并道歉,也紧急关闭了文生图功能。
NVIDIA 成立 AI 实验室 GEAR,研究通用具身智能体
英伟达高级科学家 Jim Fan 透露,英伟达内部组建一个新研究小组 GEAR,进行通用具身智能体研究,以构建出基础智能体:一个具有通用能力的 AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。
Tesla 人形机器人擎天柱,走路越来越熟练
Tesla(特斯拉)发布人形机器人擎天柱走路视频,步伐稳健、拐弯顺畅,几乎与人类走路的一样。
[InfoQ 不方便展示 gif,点击文章底部链接查看]
欢迎大家关注wx公众号,以获取更及时更丰富的内容和更好的体验
评论