写点什么

阿里 Qwen2.5 开源发布;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 开发者日报

作者:声网
  • 2024-09-19
    四川
  • 本文字数:2785 字

    阅读完需:约 9 分钟

阿里 Qwen2.5 开源发布;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、阿里史上最大规模开源发布,超 GPT-4o 、Llama-3.1!



今日凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型 Qwen2.5、专用于编码 Qwen2.5-Coder 和数学的 Qwen2.5-Math。这三大类模型一共有 10 多个版本,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B,适用于个人、企业以及移动端、PC 等不同人群不同业务场景的模型。


如果不想进行繁琐的部署,阿里还开放了旗舰模型 Qwen-Plus 和 Qwen-Turbo 的 API,帮助你快速开发或集成生成式 AI 功能。


虽然 Qwen2.5 只有 720 亿参数,但在多个基准测试中击败了 Meta 拥有 4050 亿参数的最新开源 Llama-3.1 指令微调模型;全面超过了 Mistral 最新开源的 Large-V2 指令微调模型,成为目前最强大参数的开源模型之一。


Qwen2.5 系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过 29 种主流语言。与 Qwen2 类似,Qwen2.5 语言模型支持高达 128K tokens,并能生成最多 8K tokens 的内容。


与 Qwen-2 相比,Qwen2.5 系列的预训练数据大幅度增长达到了惊人的 18 万亿 tokens,超过了 Meta 最新开源 Llama-3.1 的 15 万亿,成为目前训练数据最多的开源模型。(@AIGC 社区)


2、文生视频模型 Runway、Luma 同时开放 API


著名文生视频模型 Runway 宣布开放最新文生视频模型 Gen-3AlphaTurbo 的 API,帮助开发者将该功能集成在应用中。


Runway 的 API 提供了两个套餐:「Build」主要面向希望将文生视频集成在应用的个人和团队;「Enterprise」则面向更大型的组织和企业。目前,Runway 的 API 需要申请候补名单。


几乎在同一时间,Runway 的主要竞争对手 Luma 也宣布开放了生成视频 API,同样可以将文生视频功能集成在应用中。


Luma 的 API 提供的是最新模型 Dream Machine v1.6,在生成效率和质量方面同样非常出色。(@AIGC 社区)


3、YouTubeVeo 引入 Google DeepMind 的 Veo 模型,创作者可使用 Veo 创作视频


YouTube Shorts 将引入 Google DeepMind 的 Veo 模型,它允许创作者制作 6 秒的独立视频片段,并将 AI 生成的背景与现有视频结合,扩展视觉创意。


这些 AI 技术将集成到 YouTube Shorts 的 Dream Screen 功能中。


Dream Screen 首先使用 Imagen 3 生成四个不同的图像,创作者可以从这些选项中选择符合他们偏好风格、构图或美学的图像。选择图像后,然后 Veo 模型将基于所选图像生成 6 秒长的高质量背景视频,以实现用户的创意愿景。


不过 AI 生成的内容将通过 SynthID 打上水印,清晰标识为 AI 生成。(@小互 AI)


4、字节跳动:与台积电合作 AI 芯片一事不实


此前,The Information 报道,有知情人士透露,字节跳动正在计划与台积电合作,在 2026 年前量产自主设计的 AI 芯片,预计字节将预定数十万枚芯片的产量。


报道称,生产自主设计的芯片将有利于字节减少对价格高昂英伟达芯片的依赖,从而减少开发和运行 AI 模型的成本,在中国 AI 聊天机器人市场领先对手。


昨日,字节方面就此事回应《科创板日报》表示,报道不实,字节跳动在芯片领域确实有一些探索,但还处于初期阶段,主要是围绕推荐、广告等业务的成本优化,所有项目也完全符合相关的贸易管制规定。


几个月前也有消息称字节跳动与博通公司合作开发 AI 芯片,由台积电制造,不过字节跳动否认了「与博通合作开发 AI 芯片」的传闻。(@APPSO)


5、iPhone 15 Pro/Max 升级苹果 iOS 18.1 Beta 4 后支持拍摄空间照片


科技媒体 9to5Mac 9 月 17 日发布博文报道称,苹果 iPhone 15 Pro 和 iPhone 15 Pro Max 两款机型在升级 iOS 18.1 Beta 4 更新之后,可以支持空间照片(Spatial Photos)。


iPhone 15 Pro 和 iPhone 15 Pro Max 两款机型升级 iOS 18.1 Beta 4 之后,支持拍摄空间照片,意味着用户可以拍摄沉浸式 3D 图像,后续可以在 Vision Pro 头显上观看,让其重温他们喜爱的时刻。


要在 iPhone 15 Pro 上拍摄空间照片,用户需打开相机应用,选择空间模式,并将 iPhone 旋转至横屏模式。随后,根据苹果官网的指示,用户将看到录制空间视频和拍摄空间照片的选项。用户升级 iOS 18.1 Beta 4 更新之后,可以不再仅依赖第三方应用程序,就能拍摄空间照片。


值得注意的是,Spatialify 等第三方产品在某些领域仍提供了额外的功能。例如,Spatialify 应用允许用户以 4K 分辨率录制空间视频,而苹果内置的相机应用仅支持录制 1080p 的空间视频。(@VRAR 星球)

02 有态度的观点

1、阿里 CEO 吴泳铭:AI 算力需求渗透率超 50%,最大的想象力不在手机屏幕


2024 云栖大会开幕式上,阿里巴巴集团董事兼 CEO、阿里云智能集团董事长兼 CEO 吴泳铭表示,「在新增的算力市场和算力需求中,超过 50% 以上的需求现在都由 AI 驱动产生,AI 算力的需求渗透已经超过 50%,已经占据主导地位,未来这一趋势还会持续地扩大。」


「AI 计算正在加速演进,成为整个计算体系的主导,无论是端侧的计算还是云端的计算,这都是一个非常明显的趋势,生成式 AI 对数字世界和物理世界的重构,将带来计算架构的根本性变化。」吴泳铭表示,「过去几十年 CPU 主导的计算体系,正在加速向 GPU 为主导的 AI 计算体系牵引,未来几乎所有的软硬件都会具备推理能力,他们的计算内核将会变成 GPU AI 算力为主,CPU 算力为辅助的计算模式。」


「在汽车、生物医药、工业仿真、气象预测、教育企业软件、移动 Anh、游戏等行业,AI 计算正在加速渗透,在各行各业看不见的新兴产业革命正在悄然演进,所有行业都需要性能更强,规模更大,更适应 AI 需求的算力基础设施。」吴泳铭表示。


吴泳铭表示,「阿里云正在以前所未有的强度投入 AI 技术研发和基础设施的建设,我们的单网络集群拓展已扩展到 10 万卡的级别,正在从芯片、服务器、网络存储、供电数据中心等方方面面,重新打造面向未来的 AI 先进基础设施」。


吴泳铭认为 AI 最大的想象力不在手机屏幕,而是改变物理世界。「过去 22 个月,AI 发展速度超过任何历史时期,但依然处于 AGI 变革的早期。生成式 AI 最大的想象力,绝不是在手机屏幕上做一两个新的超级 App,而是接管数字世界,改变物理世界。」(@IT 之家)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
阿里 Qwen2.5 开源发布;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 开发者日报_声网_InfoQ写作社区