Krisp 推出对话轮次转换模型，基于纯音频信号；DeepMind 发布世界模型 Genie 3 ，可保持数分钟一致性丨日报

作者：声网

2025-08-07
四川
本文字数：5305 字
阅读完需：约 17 分钟

Krisp 推出对话轮次转换模型，基于纯音频信号；DeepMind 发布世界模型 Genie 3 ，可保持数分钟一致性丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、谷歌 DeepMind 推出世界模型 Genie 3 ，通过文本提示可以改变生成的世界

谷歌 DeepMind 宣布推出第三代通用的世界模型 Genie 3 ，可以生成前所未有的多样化交互式环境，给出文本提示，Genie 3 可以生成动态世界，可以以每秒 24 帧的速度实时导航，并以 720p 的分辨率保持几分钟的一致性。

Genie 3 是第一个允许实时交互的世界模型，同时与 Genie 2 相比，其一致性和真实感也得到了提升。

模拟世界的物理特性： Genie 3 对物理规律有深刻理解，能逼真地模拟水流、光影变化以及复杂的环境互动，例如直升机在悬崖瀑布边小心翼翼地机动；
模拟自然世界： 从冰川湖畔充满生机的生态系统，到幻想世界中可爱的毛茸茸生物在彩虹桥上跳跃，Genie 3 能将想象力转化为可探索的现实；
动画和小说建模： 可以发挥想象力，创造奇幻的场景和富有表现力的动画角色；
探索不同地域与历史场景： 模型能超越地理和时间的限制，带领用户探索不同地点和历史时代，无论是身穿翼装飞越雪山，还是置身于历史悠久的古城；
突破实时性能的极限： 实现高度的可控性和实时交互性，在每一帧的自回归生成过程中，模型必须考虑先前生成的随时间增长的轨迹。例如，如果用户在一分钟后重新访问某个位置，则模型必须引用一分钟前的相关信息。为了实现实时交互性，这种计算必须每秒进行多次，以响应新用户输入的到来；
长时程环境一致性： 为了让人工智能生成的世界身临其境，它们必须在很长一段时间内保持物理上的一致性。然而，自动回归生成环境通常比生成整个视频更难的技术问题，因为不准确之处往往会随着时间的推移而累积，Genie 3 环境在几分钟内基本保持一致，视觉记忆可以追溯到一分钟前，Genie 3 生成的世界更加动态和丰富，因为它们是根据用户的世界描述和作逐帧创建的；
可提示的世界事件（Promptable World Events）： 除了导航输入之外，Genie 3 还支持一种更具表现力的基于文本的交互形式，称之为可提示的世界事件。可提示的世界事件可以改变生成的世界，例如改变天气条件或引入新的物体和角色，从而增强导航控制的体验，这种能力还增加了反事实或「假设」场景的广度，智能体可以使用这些场景从经验中学习来处理意外情况。

相关链接：https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/ （@AI 寒武纪）

2、Krisp 推出音频轮次检测模型，助力 AI 智能体实现更自然对话

核心简介： Krisp 近日推出一款轻量级、低延迟的音频轮次转换模型，旨在显著提升语音 AI 智能体（Voice AI Agents）与用户交互的自然流畅度。该模型专注于预测当前说话者何时结束发言，现已免费集成到 Krisp 的 VIVA SDK 中。

核心技术亮点：

功能核心： 该模型的核心是「发言结束检测」，通过实时判断当前说话者何时结束说话，减少 AI 智能体的过早打断或迟滞响应，使人机对话更自然。
纯音频优势： 仅基于音频信号（如音高、语速、停顿）进行分析，无需依赖文本转录，确保了极低延迟和快速响应。
轻量高效： 模型体积小（仅 65MB，参数量 6.1M），专为 CPU 优化，部署成本和资源消耗显著低于同类大型模型。
性能卓越： 在内部测试中，Krisp TT 模型在保持高准确率的同时，实现了比竞品（如 Pipecat SmartTurn）更快的平均响应速度，综合性能表现突出。

发布计划与未来展望： Krisp 表示，未来将持续升级轮次检测模型能力，计划包括：

引入文本与多模态模型： 结合文本信息，开发纯文本和音视频多模态融合的轮次转换模型，进一步提升预测精度。
支持回音检测： 识别并区分用户是真正想打断对话，还是仅发出表示倾听的「嗯」、「好的」等背景反馈信号。

相关链接：https://krisp.ai/blog/turn-taking-for-voice-ai/（@Krisp Engineering Team Blog）

3、Anthropic 发布 Claude Opus 4.1

Anthropic 重磅更新——Claude Opus 4.1。Claude Opus 4.1 是对前代 Claude Opus 4 的全面升级，重点强化了 Agent 任务执行、编码和推理能力。

基准测试结果显示，Opus 4.1 将在 SWE-bench Verified 达到了 74.5%的成绩，将编码性能推向了新高度。此外，它还提升了 Claude 在深度研究和数据分析领域的能力，特别是在细节跟踪和智能搜索方面。

来自业界的反馈印证了 Opus 4.1 的实力提升。比如 GitHub 官方评价指出，Claude Opus 4.1 在绝大多数能力维度上都超越了 Opus 4，其中多文件代码重构能力的提升尤为显著。目前，这款新模型已向所有付费 Claude 用户和 Claude Code 用户开放，同时也已在 Anthropic API、亚马逊 Bedrock 以及 Vertex AI 平台上线。

在定价方面，Claude Opus 4.1 采用了分层计费模式：输入处理费用为每百万 token 15 美元，输出生成费用为每百万 token 75 美元；写入缓存的费用为每百万 token 18.75 美元，而读取缓存仅需每百万 token 1.50 美元。(@APPSO)

4、开源轻量级 TTS 模型 Kitten TTS，支持端侧运行

Kitten TTS 是一个开源的文本转语音模型，专注于提供轻量级部署和高质量的语音合成服务。

功能亮点：

轻量化：Kitten TTS 的模型大小小于 25MB，参数量仅为 1500 万；
CPU 优化：该模型可以在没有 GPU 的情况下运行，这意味着它能在任何设备上运行，包括性能较低的边缘设备；
高质量语音：尽管模型体积小，Kitten TTS 依然能提供多种高质量的语音选项；
快速推理：模型专为实时语音合成进行了优化，能够实现快速的推理速度，为用户提供流畅的使用体验。

GitHub:https://github.com/KittenML/KittenTTS

Huggingface:https://huggingface.co/KittenML/kitten-tts-nano-0.1(@divamgupta@X)

5、OpenAI 发布 2 款开源模型

OpenAI 刚刚正式发布两款开源权重语言模型——gpt-oss-120b 和 gpt-oss-20b。

据 OpenAI 官方介绍，gpt-oss-120b 需 80 GB 内存，而 gpt-oss-20b 仅需 16GB 内存就能运行。

亮点方面：

gpt-oss-120b：大型开放模型，适用于生产、通用、高推理需求的用例，可运行于单个 H100 GPU（1170 亿参数，激活参数为 51 亿），设计用于数据中心以及高端台式机和笔记本电脑上运行；
gpt-oss-20b：中型开放模型，用于更低延迟、本地或专业化使用场景（21B 参数，3.6B 激活参数），可以在大多数台式机和笔记本电脑上运行；
Apache 2.0 许可证：可自由构建，无需遵守 copyleft 限制或担心专利风险——非常适合实验、定制和商业部署；
可配置的推理强度：根据具体使用场景和延迟需求，轻松调整推理强度（低、中、高）。完整的思维链：全面访问模型的推理过程，便于调试并增强对输出结果的信任。此功能不适合展示给最终用户；
可微调：通过参数微调，完全定制模型以满足用户的具体使用需求；
智能 Agent 能力：利用模型的原生功能函数调用、网页浏览、Python 代码执行和结构化输出；
原生 MXFP4 量化：模型使用 MoE 层的原生 MXFP4 精度训练，使得 gpt-oss-120b 能够在单个 H100 GPU 上运行，gpt-oss-20b 模型则能在 16GB 内存内运行。

GitHub: https://github.com/openai/harmony(@APPSO)

02 有亮点的产品

1、极简主义的自由写作应用 Spill：支持 AI 语音反思功能

Spill 是一款极简主义的自由写作应用，作为 Freewriting 应用的扩展版本。该产品支持让用户在无干扰的空间中倾诉想法。在写作完成后，用户可以通过应用内置的语音模式深入分析整理用户的想法。

该产品将用户所有的隐私数据保存在本地，且不强制登陆和不收集任何用户的个人身份信息。只有用户与语音智能体的对话信息会通过网络传输。

相关链接：https://tryspill.com（@ProductHunt）

2、原阿里通义千问语音团队负责人被曝转投京东

援引知情人士消息，原阿里通义千问语音团队负责人，原腾讯 AI Lab 副主任鄢志杰已经加入京东探索研究院，担任语音实验室负责人，向京东集团副总裁、探索研究院院长何晓冬汇报。

报道称，今年 2 月，鄢志杰以阿里通义团队语音算法负责人（P10 职级）的身份离职，当时的报道并未透露他的去向，后经多方确认，确定他加入腾讯 AI Lab，担任副主任。但在工作约三个月后，鄢志杰离职。

据公开资料显示，鄢志杰于 2003 年升入中科大语音实验室，攻读博士学位，师从语音领域专家王仁华教授（科大讯飞创始人之一）。2008 年在中国科学技术大学语音实验室获博士学位之后，至 2015 年在微软亚洲研究院语音组任主管研究员。研究领域主要包括语音识别、语音合成、声纹、语音交互、手写及光学字符识别等。

值得一提的是，鄢志杰于 2015 年加入阿里巴巴后，曾担任阿里 IDST（报道称其为达摩院前身）智能语音交互团队总监。后在 2017 年 10 月，达摩院成立后，鄢志杰担任达摩院机器智能语音实验室负责人，成为十三位「扫地僧」之一（最初的核心成员）。(@APPSO)

3、谷歌 Gemini 推出 Storybook 功能：一键生成定制有声绘本

Google 在 Gemini 应用中推出了一项名为 Storybook 的新功能，用户只需输入主题、目标读者年龄和期望的图画风格，就能为大人或小孩生成专属绘本。同时，这些绘本会配有定制艺术插图和专业朗读旁白。

Gemini Storybook 官方页面：https://gemini.google.com/gem/storybook （@三花 AI）

4、ElevenLabs 新推出音乐模型 Eleven Music

8 月 5 日，ElevenLabs 推出「Eleven Music」模型，旨在为用户提供通过自然语言提示创建高质量音乐的能力。

该模型是一款 AI 驱动的文本到音乐生成工具，它允许用户通过输入文本提示来创作原创音乐作品。用户可以指定音乐的风格、流派、情绪、乐器、歌曲结构，甚至可以包含多语言的歌词，从而在几分钟内生成一首完整的、带有或不带有歌词的歌曲。此外，Eleven Music 还提供了一系列编辑功能，用户可以对生成的音乐细致的调整，包括添加、删除或修改特定段落、编辑歌词和乐器提示，以及控制音乐的风格，以实现更精确的创作。

功能亮点

灵活的风格和结构控制：用户可以通过文字描述生成各种风格的音乐，从「即兴演奏」（Jam band）到「电影配乐」（cinematic scoring），并能控制音乐的结构，如包含「长篇独奏」（long guitar solos）和「和声」（harmonizing）等；
多样的音乐类型：模型支持生成多种音乐类型，例如「即兴摇滚」（jam band）、「电子-电影混合配乐」（hybrid electronic-cinematic scoring）和「拉丁雷鬼」（Latin reggaeton）等；
支持多语言和多风格人声：模型能够捕捉并生成任何语言或风格的传统人声。例如，可以指定一个「有魅力的男性主唱 MC」，使用西班牙语演唱；
商业用途许可：Eleven Music 是与唱片公司、出版商和艺术家合作开发的。因此，其生成的音乐已获得广泛的商业用途许可，解决了用户在使用 AI 音乐时可能面临的版权问题。

ElevenLabs 未来计划推出一个名为「Eleven Music Pro」的后续模型。

相关链接：https://elevenlabs.io/music

ElevenLabs 官网：https://elevenlabs.io/blog/eleven-music-is-here（@elevenlabsio@X）