写点什么

Hume 推出 Octave TTS 即时模式,250 毫秒响应;客服语音智能体 Sona:简单集成、高度自定义丨日报

作者:声网
  • 2025-04-18
    四川
  • 本文字数:2676 字

    阅读完需:约 9 分钟


开发者朋友们大家好


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、阿里通义万相开源业内首个「首尾帧生视频模型」 Wan2.1-FLF2V-14B


昨晚,阿里通义宣布开源业内首个「首尾帧生视频模型」—— Wan2.1-FLF2V-14B,只需要提供两张照片作为首帧和尾帧,模型便能自动生成一段丝滑流畅的高清视频。据了解,阿里通义发布的 Wan2.1 系列模型采用了先进的 DiT 架构,其中:


  • 模型的 Transformer 部分基于主流的视频 DiT 结构,通过 Full Attention 机制精准捕捉长时程的时空依赖关系,确保了生成视频在时间与空间上的高度一致性;

  • 本次发布的首尾帧生视频模型在基础架构模型上,引入了额外的条件控制分支,用户输入的首帧和尾帧作为控制条件,通过这一分支实现了流畅且精准的首尾帧变换。另外模型的训练分为三个阶段,逐步对能力进行提升。


目前,「首尾帧生视频模型」已经上线通义万相官网并可直接免费体验,或在 Github、Hugging Face、魔搭社区下载模型进行本地部署。(@APPSO)


2、Google 推出 Gemini 2.5 Flash 预览版,推理能力较大升级


4 月 18 日凌晨,Google 正式推出 Gemini 2.5 Flash 预览版大模型,基于 Gemini 2.0 Flash 打造,其在推理能力方面进行了较大升级,同时保持了速度和成本的优势。


据 Gemini 产品经理 Tulsee Doshi 表示,Gemini 2.5 Flash 与 2.5 Pro 一样,支持动态思考:根据输入的复杂程度自动调整生成的工作量。在 2.5 Flash 上,开发者可以进一步控制模型思考。


2.5 Flash 预览版在 LMArena 测试中排名第二,仅次于 2.5 Pro;而在部分测试基准中,2.5 Flash 在保持低低成本的同时,拥有媲美 DeepSeek-R1、Claude Sonnet 3.7 等模型的性能。


目前,Gemini 2.5 Flash 预览版现已在 Google AI Studio 和 Vertex AI 的 Gemini API 中上线。(@APPSO)


3、字节开源多模态智能体 UI-TARS-1.5,具备游戏长时推理和开放空间交互能力


4 月 17 日,字节跳动发布并开源 UI-TARS-1.5,这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。目前,UI-TARS-1.5 已在 7 个典型的 GUI 图形用户界面评测基准中取得 SOTA 表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。


UI-TARS-1.5 基于此前的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在「行动」前先进行「思考」。对于推理能力的优化,显著提升了模型在面对未知环境和任务时的泛化能力,这使得 UI-TARS-1.5 在多项主流评测基准上较此前领域最优模型取得了更好表现。(@豆包大模型团队)


4、Hume 推出 Octave TTS 即时模式,响应时间能够压缩至 250 毫秒以内


来自 Hume 的 Octave TTS 现已实现极速响应,隆重推出 Octave 即时模式。


该模型拥有目前市场上最高品质的文本转语音技术,其响应时间能够压缩至 250 毫秒以内。


同时完整保持原有的音色细腻度、情感表现力和声音个性特征。(@Hume@X)

02 有亮点的产品

1、ServiceAgent 智能应答系统:优化家政服务行业客户沟通体验


ServiceAgent 是一款专为家政服务企业打造的呼叫应答智能体。它基于行业特定数据进行训练,能够通过对话预约、处理客户咨询,并全天候捕捉每一条潜在商机,以帮助众多家政服务企业实现服务团队人力解放,使其能够将更多精力投入到提升客户服务质量上。(@Product Hunt)


2、OpenPhone 发布客服语音智能体 Sona:无需复杂集成,高度自定义


OpenPhone 发布了一款客服语音智能体产品 Sona,专为提升企业通信效率而设计。


它能够全天候响应来电,自动捕捉潜在客户信息、解答常见问题,并完整记录通话数据,帮助团队快速高效地跟进。


Sona 支持高度自定义——可以自主控制其介入时机和协助方式。企业可根据需求灵活设置其工作流程,且无需复杂集成,简单配置即可快速投入使用。


尤其适合依赖客户咨询的服务型企业、人员有限的中小团队,以及注重专业形象与响应速度的企业。(@OpenPhone@X)

03 有态度的观点

1、OpenAI 研究员姚顺雨:AI 将由解决问题转为定义问题


现任 OpenAI 研究院的姚顺雨发布博文,探讨了其对 AI 未来的发展预测。


其表示,几十年来 AI 主要致力于开发新的训练方法和模型,取得了显著成就,而这些成就都源于基础性创新,例如搜索、深度强化学习(Deep RL)和推理能力。而如今,深度强化学习终于开始泛化,AI 为人类赋能的局面也得到了变化。姚顺雨认为,随着强化学习的突破,AI 开始解决多样化的任务,如软件工程、创意写作和 IMO 级别的数学问题。


通过语言和推理的引入,AI 能够跨领域泛化任务,解决复杂问题。姚顺雨还提到,AI 的下半场将由解决问题转向定义问题,评估方法的创新将成为关键。此外,姚顺雨还表示,传统的评估方法已难以应对复杂的现实需求,AI 需要具备长时记忆和适应能力。他强调,新的评估方式应着眼于实际应用,推动 AI 产品的效用和商业价值,为行业带来更大的创新和影响。(@APPSO)



更多 Voice Agent 学习笔记:


a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记


a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记


ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记


端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记


世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过


多模态 AI 怎么玩?这里有 18 个脑洞


AI 重塑宗教体验,语音 Agent 能否成为突破点?


对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来


a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)


对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
Hume 推出 Octave TTS 即时模式,250 毫秒响应;客服语音智能体 Sona:简单集成、高度自定义丨日报_声网_InfoQ写作社区