写点什么

OpenAI 发布新一代 STT/TTS 模型,10 行代码构建 Voice Agent;声网推出对话式 AI 开发套件丨日报

作者:声网
  • 2025-03-21
    四川
  • 本文字数:4459 字

    阅读完需:约 15 分钟

OpenAI 发布新一代 STT/TTS 模型,10 行代码构建 Voice Agent;声网推出对话式 AI 开发套件丨日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@qqq、@鲍勃

01 有话题的技术

1、OpenAI 推出全新一代音频模型


今日凌晨,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。新产品的核心亮点概述如下:


  • gpt-4o-transcribe(语音转文本): 单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型。采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性,并更适用于处理口音多样、环境嘈杂、语速变化等挑战场景;

  • gpt-4o-mini-transcribe(语音转文本): gpt-4o-transcribe 的精简版本,基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,速度更快、效率更高,适合资源有限但仍需高质量语音识别的应用场景;

  • gpt-4o-mini-tts(文本转语音): 首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」。具体而言,开发者可以预设多种语音风格,并能根据指令调整语音风格。


值得关注的是,gpt-4o-transcribe 与 gpt-4o-mini-transcribe 这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。价格方面,gpt-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元;而 gpt-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元;gpt-4o-mini-tts 为每分钟 0.015 美元。目前,所有全新音频模型已向全球开发者开放。


此外,OpenAI 还介绍了两种构建语音 Agent 技术路径:


「语音到语音模型」采用端到端的直接处理方式: 系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤;


链式方法: 首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。其优势在于模块化设计,各组件可独立优化;处理结果更稳定;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。


OpenAI 还特意提到了,现在他们的 Agents SDK 已经可以直接支持音频了,也就是说,以后开发者可以更轻松地搭建一个能「听」和「说」的智能语音助手。


比如,你只需要简单调用 API,就能实现智能客服、智能导游、甚至能聊天的虚拟伙伴。(@ APPSO、宝玉 AI)


2、阶跃星辰 Step-Video-TI2V 图生视频模型开源,运动可控,动漫效果尤佳


今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。


今天,他们继续 开源图生视频模型——Step-Video-TI2V ,一款基于 30B 参数 Step-Video-T2V 训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备 运动幅度可控镜头运动可控 两大核心特点,同时天生具备一定的特效生成能力。和目前已有开源图生视频模型相比,Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限,其运动幅度可控能力,更是能够平衡图生视频生成结果的动态性和稳定性,为创作者提供更为灵活的选择。


核心特点


  • 运动幅度可控:动态 & 稳定自由切换,Step-Video-TI2V 支持控制视频的「运动幅度(motion)」,平衡图生视频内容的运动性和稳定性 。无论是静态稳定画面,还是高动态动作场景,都能满足创作者需求。

  • 多种运镜控制:除了对镜头内主体运动的控制, Step-Video-TI2V 支持对多种运镜的理解,可以对生成视频中的镜头运动进行精准控制 ,生成大片级运镜效果。从基本的推拉摇移、升降,到各种复杂的电影级运镜效果都能驾驭。

  • 动漫效果尤佳:Step-Video-TI2V 在动漫类任务上的效果尤其优异,非常贴合动画创作、短视频制作等应用场景。

  • 支持多尺寸生成:Step-Video-TI2V 支持多种尺寸图生视频,无论是横屏的宽阔视野,竖屏的沉浸体验,还是方屏的经典复古,都能轻松驾驭。(@阶跃星辰)


3、NVIDIA 开源 Canary 1B 和 180M Flash 模型:支持多语言语音识别和翻译的模型



NVIDIA 刚刚开源了 Canary 1B 和 180M Flash 模型——支持多语言语音识别和翻译的模型,其目前在开放 ASR 排行榜上排名第二。


亮点:


  • 能够实现超过 1000 RTF 的惊人速度;

  • 提供 880M 和 180M 两种尺寸——非常适合设备端使用;

  • 支持单词级和片段级时间戳;

  • 流利掌握英语、德语、法语和西班牙语;

  • 性能稳健,幻觉现象更少;

  • 采用 CC-BY 许可——允许商业用途。(@Vaibhav (VB) Srivastav)

02、有亮点的产品

1、 声网推出对话式 AI 开发套件,为开发者提供「对话式 AI + 智能硬件开发」一站式解决方案


3 月 20 日,声网亮相 2025 年中国家电及消费电子博览会(AWE2025), 正式推出对话式 AI 开发套件 ,此套件专为智能硬件开发者量身打造,旨在助力其快速构建 AI 实时语音交互产品,提升人机实时互动体验。同时,声网宣布已将对话式 AI 开发套件软硬件全面开源。



对话式 AI 开发套件基于博通集成(Beken)的高性能 AI 芯片 BK7258 ,实现强大的端侧音频处理,同时深度融合了声网的对话式 AI 引擎, 让智能硬件设备实现自然流畅的实时语音对话、智能停顿及打断处理、以及超低延时响应 ,为开发者提供「对话式 AI + 智能硬件开发」一站式解决方案。



方案架构图


目前,声网已将对话式 AI 开发套件的软件、硬件全面开源。硬件侧,将原理图、位号图等相关的硬件设计图全面开放;软件侧,提供一整套面向开发者的开发工具箱,包括丰富的示例代码和最佳实践。开发者只需下载开源代码,即可将对话式 AI 能力集成到自己的智能硬件设备中。 1 小时即可跑通 Demo,1 天完成产品原型送样, 大幅缩短开发周期,降低开发门槛。


声网对话式 AI 开发套件应用场景广泛,从 AI 玩具到智能家居,可实现全场景适配,让所有智能硬件开口说话。例如, AI 玩具、AI 教育硬件、AI 陪伴设备、家居语音助手、穿戴设备-个人助手 等多种应用场景。


2、百度地图推出智能眼镜解决方案:提供 AR 导航,接入 DeepSeek



(图片来源:网络)


3 月 18 日消息,在 VisionX AI 智能眼镜产业大会上,百度地图宣布推出智能眼镜解决方案。


该方案通过自然语言交互,覆盖用户出行全流程,行程中提供 AR 导航功能。此外,支撑智能眼镜解决方案的「AI 智能体」,现已完成 DeepSeek 接入,文心 + DeepSeek 双重加持。


据了解,百度地图智能眼镜解决方案号称覆盖用户出行全流程:出行前,只需通过语音交互,「AI 智能体」就能快速为用户规划路线;行程中提供 AR 导航功能,将真实街景与导航信息深度融合;抵达后,「AI 智能体」还能根据用户偏好,智能推荐目的地周边地点。


此外,针对用户高频出行的场景,该方案还提供了专属功能,如:驾车用户可以智能标记停车位位置并实现一键导航寻车;公交出行时,提供车辆位置及上下车站点的实时提醒;外出旅游时,「AI 智能体」支持语音问答和景点讲解;在易迷路的室内场所,室内 AR 导航可快速定位商场、医院等地点,解决室内寻路难题等。(@IT 之家)


3、猫王妙播:行业首发 AI 智慧音响,携手音响行业进入 AI 时代



3 月 18 日,猫王妙播音响十周年庆典派对在深圳圆满举办。作为音响领域未来的持续探索者,猫王妙播在行业内首次正式发布多款自主创新的 AI 智慧音响——包括 SR2 MK2·AI 智慧收音机、SR1 Pro·AI 智慧收音机、小王子 OTR·AI 智慧音箱、小岛 AI 数字人音响,覆盖了从个人便携到家庭使用的多种场景。凭借妙播 OS 操作系统、自研一体化硬件、软件体系以及 AI 大模型深度融合,猫王妙播推动音响从传统的「播放设备」向「情绪陪伴」升级,为用户带来更智慧懂你、更个性化的革新体验。


这一突破不仅意味着传统音响行业正式迈入 AI 赋能的新阶段,更彰显了中国音响品牌在行业技术革新中的探索与突破。凭借 300 余项专利布局、亿级研发投入及行业标准制定能力,猫王妙播致力于推动 AI 智慧音响的标准化进程。


在技术创新方面,猫王妙播打造了完整的 AI 智慧音响生态,依托自研妙播 OS 操作系统,实现语音交互、情绪识别、个性化推荐,并支持 OTA 持续升级,使音响「越用越懂你」。同时,公司构建了一体化硬件体系,并与君正、展锐、乐鑫、ASR、高通、杰理、炬力、山景、广和通等芯片厂商深度合作,确保高品质音质与 AI 计算能力。(@ITheat 科技)

03、有态度的观点

1、黄仁勋:英伟达是世界唯一的 AI 公司



近日,英伟达 CEO 黄仁勋在 GTC2025 交流会中回答记者问题,其中他结合公司发展、个人观点以及市场环境,分享了自己在 AI 方面的各路看法。其中黄仁勋提到,目前英伟达已经成为了 AI 基础设施公司、AI 世界工厂和许多企业的 AI 技术基础平台。而上述的三个转变,也是英伟达近几年发生的重大变化,也因此让英伟达能够成为历史上第一个一次性宣布四代产品的科技公司。黄仁勋还强调,公司拥有完整的 AI 链条,并且构建上游的原始技术,因此英伟达也是世界唯一的 AI 公司。值得关注的是,黄仁勋还在本次回答中分享了自己对中国 AI 研究的看法及未来。


黄仁勋指出,中国的 AI 相关研究者数量遥遥领先于其他国家,全球 50% 的 AI 研究人员来自中国。基于中国庞大的 AI 研究人员数量,黄仁勋强调,中国在 AI 研究方面的巨大贡献是可以理解的,并希望中国能继续保持这种培养优秀计算机科学家的模式。此外,黄仁勋还谈及了 AGI 与资源分配的看法。其认为实现 AGI 需将智慧应用于特定目的,选择正确战略和任务,领域专业知识都很重要,当前全球在 AI 相关的资本支出上,应更多投向基于机器学习、科学计算和 AI 的领域。同时黄仁勋建议,应该建造原生 AI 数据中心和计算机,推动智能制造行业发展。(@APPSO)



更多 Voice Agent 学习笔记:


ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记


端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记


世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过


多模态 AI 怎么玩?这里有 18 个脑洞


AI 重塑宗教体验,语音 Agent 能否成为突破点?


对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来


2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布


对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
OpenAI 发布新一代 STT/TTS 模型,10 行代码构建 Voice Agent;声网推出对话式 AI 开发套件丨日报_声网_InfoQ写作社区