Voila:开源端到端全双工语音模型,延迟 195 毫秒;Gemini 2.5 Pro 预览版发布,视频理解能力提升丨日报


开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、Google 发布 Gemini 2.5 Pro(I/O 预览版),视频理解能力提升
5 月 6 日晚,Google 发布了旗下 Gemini 2.5 Pro 模型的 I/O 预览版。据官方介绍,该版本专为即将到来的 Google I/O 大会准备,重点提升了编码能力,专注于前端开发、UI 构建、代码转换/编辑、函数调用等方面。具体来看:
前端与 UI 开发能力升级:Gemini 2.5 Pro 在网页基准测试 WebDev Arena 排行榜上排名第一,超越 Anthropic 的 Claude 3.7 Sonnet;支持设计样式自动匹配,保持风格一致;
视频理解能力提升,在 VideoMME 基准测试中得分 84.8%;支持通过视频内容(如 YouTube 视频)生成交互式应用;
应用构建落地速度加快:通过简单的提示,即可快速生成具有美观 UI 和动效的可用 App。
价格方面,Gemini 2.5 Pro I/O 预览版与此前 3 月发布的版本价格一致。
使用方面,用户现在即可通过 Google AI Studio 中的 Gemini API 选择上述版本的 Gemini 2.5 Pro 进行使用,系统默认将接口接入最新版本,用户无需额外迁移。(@APPSO)
2、英伟达开源新推理模型,超越 DeepSeek-R1

英伟达推出了 Llama-Nemotron 系列最新的三款模型,分别为「LN-Nano 8B」「LN-Super 49B」和「LN-Ultra 253B」,另有独立变体 UltraLong(8B,支持超长上下文)。
其中,LN-Ultra 模型通过大规模强化学习(RL)进一步超越了教师模型 DeepSeek-R1,成功突破了性能瓶颈。同时,LN-Ultra 还能在单个 8xH100 节点上运行,并具备更高的推理吞吐量。
英伟达还首次推出了推理开关功能,允许用户通过简便的指令在「标准聊天模式」和「推理模式」之间动态切换,满足日常对话与复杂推理任务的需求。
性能表现上,LN-Nemotron 系列模型在多个基准测试中取得了领先表现,尤其在推理任务(如 GPQA-Diamond、AIME24、AIME25)和非推理任务(如指令遵循评估)上均显示出了卓越的能力。LN-Ultra 不仅超越了 DeepSeek-R1,还在多个领域的应用上展现了强大的泛化能力。
值得一提的是,本次 LN-Super 和 LN-Ultra 模型采用了 Puzzle 框架,以优化推理效率。该框架利用局部蒸馏和模块化优化,实现了在硬件限制下的高效推理。在 LN-Ultra 中,研究者还引入了 FFN Fusion 技术,显著提升了推理延迟效率。
arXiv 地址:
https://arxiv.org/pdf/2505.00949
代码地址:
https://github.com/NVIDIA/NeMo
数据集:
https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset
(@APPSO、@机器之心)
3、ACE-Step 开源音乐 AI:生成多种风格歌曲,支持中文等 19 种语言
ACE-Step 是由 ACE Studio 和 StepFun 联合开发的开源音乐生成模型,基于扩散模型,支持生成多种风格歌曲,支持中文等的 19 种语言。
支持各种控制能力,包括声音克隆、歌词修改、人声性别调整、混音及音轨生成。
模型在 A100 GPU 上仅用 20 秒即可合成长达 4 分钟的音乐——比基于 LLM 的基线快 15 倍——同时在旋律、和声和节奏指标上实现了卓越的音乐连贯性和歌词对齐。此外,ACE-Step 保留了精细的声学细节,从而实现了高级控制机制,例如声音克隆、歌词编辑、混音和音轨生成(如 lyric2vocal、singing2accompaniment)。(@三花 AI、@GitHub)
4、LTXStudio 发布 130 亿参数 LTX-Video 开源模型
LTXStudio 最新发布了 LTX-Video 13B 开源视频生成模型:
130 亿参数规模;
采用多尺度渲染技术,可以同时分析多个空间分辨率的场景,呈现更精细的细节;
显著提升运动轨迹与场景理解能力;
可在本地 GPU 运行,比同类产品快 30 倍;
支持关键帧、镜头/角色运动控制及多镜头序列生成。(@三花 AI、@LTX Studio@X)
5、Voila : 开源的端到端全双工模型,延迟 195 毫秒,支持汉语等六种语言
Voila 是一款端到端全双工语音模型,支持 ASR、TTS 以及多语言语音翻译。延迟 195 毫秒,超人类平均响应时间。能实时自主对话,持续聆听、推理以及主动回应,通过文本指令可以定义说话者的身份以及语气等特征。
关键创新:
端到端全双工:
Voila-e2e:直接处理音频,响应延迟仅 195ms,优于人类反应时间 Voila-autonomous:支持同时听、说,模拟人类对话的打断、反馈等动态
多尺度 Transformer:
结合 LLM 语义推理与语音建模,保留语调、情感等细节 Voila-Tokenizer 将音频转为语义+声学令牌,优化文本-音频对齐
高度可定制:
超百万预建语音,10 秒音频即可定制新语音 文本指令定义 AI 角色人格、语气
统一多任务:
支持对话、ASR、TTS,可微调至语音翻译 支持英语、汉语等六种语言
性能亮点:
Voila Benchmark:
准确率 30.56%,远超 SpeechGPT(13.29%)、Moshi(11.45%);
ASR:
词错误率(WER)低至 2.7%(含训练数据),媲美 Whisper;
TTS:
WER 低至 2.8%,优于 Vall-E、Moshi。(@meng shao@X)
02 有亮点的产品
1、百度动物语言转换专利公布 可实现人与动物深度交流
5 月 6 日消息,北京百度网讯科技有限公司申请的「动物语言转换方法、装置、电子设备及存储介质」专利今日正式公布。
专利摘要显示,该专利提供了一种动物语言转换方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及机器学习、深度学习以及自然语言处理等技术领域。
具体实现方案为:获取与动物相关的多模态数据,多模态数据包括动物声音数据、动物行为数据以及动物体征数据;对多模态数据进行预处理,得到融合后的多模态数据;根据融合后的多模态数据对动物的当前情感进行识别,以得到动物的情感识别结果;将情感识别结果进行语义映射以及语言翻译,以将动物语言转换为人类语言,得到语言转换结果。
该专利能够准确识别动物的当前情感状态,并将其转换为人类语言,从而实现动物与人类之间更深层次的情感交流和理解,提高了跨物种沟通的准确性和效率。(@极客公园、@财联社)
2、Creatify Product Video:将产品图片转化为工作室品质的营销视频
借助 Creatify,可以在几分钟内将产品图片转化为工作室品质的营销视频。
从动态 UGC 风格展示到电影级产品拍摄,帮助品牌更快、更便宜、大规模地创作出色的营销内容。
目前已经为电商卖家、DTC 品牌和需要快速获得创意的营销者提供了内容支持。目前仅支持英语。(@PruductHunt)
03 有态度的观点
1、Windsurf CEO:AI 令每个人都能成为软件「建造者」
日前,Windsurf CEO Varun Mohan 接受 Y Combinator 频道的专访,Varun 围绕 Windsurf 的发展讲述了目前 AI 在代码,亦或者其他领域的发展,以及未来走向。
主持人在访谈中提到,目前 Windsurf 内部每个人都在使用 Windsurf,而 Varun 很自豪地表示:公司内 Windsurf 重度用户之一是一名负责合作关系的非技术人员。Varun 进一步透露,该人员目前可以不依赖公司的许多销售工具,并且能简化掉很多与其他部门沟通的步骤,获得自己动手实现修改的能力。
对于通过 Agent 实时构建软件程序,Varun 则认为这是一种令构建软件能力走向民族化的方向。Varun 认为,在 AI Agent 的帮助下,每个人都能是软件的「建造者」。未来,用户或许只需要一句提示词,就能让 Agent 生成属于用户自己、独一无二且具有针对性功能的软件。
另外,Varun 还预测,随着 Agent 和 AI 技术的进步,开发者将更多时间花在评审 AI 生成的代码上,而非亲自编写。同时,AI 还将会继续推动软件开发效率的提升。(@APPSO)

更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻
评论