写点什么

会议实时转录接口 Recall 完成 3800 万美元融资,深耕对话数据基建;Locally AI 推出本地实时语音交互丨日报

作者:声网
  • 2025-09-06
    四川
  • 本文字数:2992 字

    阅读完需:约 10 分钟

会议实时转录接口 Recall 完成 3800 万美元融资,深耕对话数据基建;Locally AI 推出本地实时语音交互丨日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@Jerry fong,@鲍勃

01 有话题的技术

1、视觉故事写作工具,重新定义创意写作


来自蒙特利尔大学和多伦多大学的研究人员 Damien Masson、Zixin Zhao 和 Fanny Chevalier,在近期 UIST2025 会议上推出了他们的创新工具——「视觉故事写作」(Visual Story-Writing)。这款革命性工具通过可视化时间线、地图和角色关系,正在彻底革新创意写作过程。


研究人员介绍称,这款智能工具能够自动生成三个关键视图:角色互动图、场景地图和时间线,分别展示角色间的互动、他们的地理位置及场景的顺序。这些可视化界面不仅极大便利了作家的审阅与编辑,更支持通过直观的拖拽操作(如在地图上移动角色、调整时间线上的场景顺序)直接实时更新故事内容。


通过对经验丰富和初学作家的两项用户研究,研究团队发现,这些可视化工具显著提升了作家的创造力,助力他们规划复杂修订、追踪故事元素,并探索多样的故事变体。Damien Masson 强调:「我们的工作不仅通过文字,还通过可视化内容,为写作支持奠定了基础。


演示链接:https://damienmasson.com/VisualStoryWriting/(@Damien Masson)


2、Decart 发布 Oasis 2.0,在 Minecraft 实现了游戏世界风格的实时变换


Decart 正式推出其最新 AI 模型 Oasis 2.0,该模型通过与 Minecraft 的深度集成,实现了游戏世界风格的实时变换,支持 1080p、30fps 的高品质体验。Oasis 2.0 不仅可作为 Minecraft 模组使用,还提供了网页演示版本,开放给所有用户。


试玩:https://oasis2.decart.ai/demo(@Decart@X)


3、Locally AI 推出「Local Voice Mode」,实现本地语音实时交互


2025 年 9 月 4 日,Locally AI 推出 「Local Voice Mode」 功能,该功能依托 Prince Canuma 开发的 mlx-audio 库,实现了无需云服务的本地语音交互,显著提升了 Apple Silicon 设备的隐私性和性能。Local Voice Mode 的发布标志着 AI 应用向本地化方向的重要一步,特别是在隐私和性能方面的创新,为用户提供了更安全、更高效的交互体验。



相关链接:https://locallyai.app/(@Locally AI)


4、TEN Framework 升级,简化语音智能体开发流程,原生 Node.js 支持



2025 年 9 月 4 日,TEN Framework 正式推出其 v0.10 版本,这一里程碑更新为语音 AI 智能体开发树立了全新标准。该版本现已具备生产级能力,成为语音智能体开发者不容错过的利器。TEN Framework v0.10 致力于简化语音 AI 智能体的开发流程,同时提升性能和扩展性。新版本引入了 {main} 概念作为自定义逻辑的直观入口,并提供原生 Node.js 支持,助力开发者高效构建和编排实时语音代理工作流。此外,更新还优化了实时协议,显著降低了自动语音识别 (ASR) 和文本转语音 (TTS) 服务的延迟。


技术亮点


  • {main} 概念 :作为核心创新,{main} 提供了一个简洁直观的接口,助力开发者以更安全、稳健的方式实现自定义逻辑。

  • 原生 Node.js 支持 :开发者可利用 Node.js 轻松构建完整的语音代理工作流,体验前所未有的高效性。

  • 实时协议优化 :通过升级的实时协议,v0.10 实现了 ASR 和 TTS 服务的超低延迟表现。

  • 卓越扩展性 :官方集成了 Soniox.ai、Speechmatics、Hume.ai 等合作伙伴的解决方案,同时支持开发者自由接入任何自定义模型。


详细的技术深入解析:https://theten.ai/docs/ten_agent/customize_agent/modify-main/main_python_cascade


针对 Node.js 开发者的全新教程:https://theten.ai/blog/coding-voice-agent-using-nodejs


(@TEN Framework)

02 有亮点的产品

1、Lovable 推出语音模式,开启无键盘开发新时代


2025 年 9 月 3 日,Lovable 正式发布「语音模式」(Voice Mode),允许用户通过语音指令与 AI 对话,直接构建应用和网站,无需手动输入代码或操作键盘。用户只需点击语音模式按钮,描述所需的功能,Lovable 的 AI 即可自动生成相应的应用程序或网站雏形。(@Lovable)


2、Recall 完成 3800 万美元 B 轮融资,加速 AI 会议记录基础设施建设


2025 年 9 月 4 日,专注于为 AI 产品提供对话数据基础设施的 Recall.ai 宣布成功完成 3800 万美元的 B 轮融资。本轮融资由 Bessemer Venture Partners 领投。


Recall.ai 致力于解决 AI 产品在自动化过程中面临的「上下文缺失」问题。鉴于对话是组织中「全球最大」但未被记录的数据集,Recall.ai 提供 API,使开发者能够轻松捕获、存储和分析会议对话数据,为 CRM 填充、邮件起草、临床记录生成等 AI 应用提供核心驱动力。目前,已有超过 2,000 家企业(包括 HubSpot、DataDog、Calendly 等)利用 Recall.ai 每周处理数百万小时的对话数据。


近期推出的 Desktop Recording SDK 是一款创新的无机器人会议记录解决方案。它允许用户直接从设备本地捕获 Zoom、Google Meet、Microsoft Teams 等主流会议平台乃至线下会议的丰富数据(包括发言人、实时视频和元数据),确保在网络不稳定的情况下也能高可靠地上传和处理。


此前,欧盟委员会曾出台新规,禁止基于人工智能的虚拟助手参与欧盟内部的虚拟会议。


Recall.ai 将开发 Mobile SDK 以捕获更多类型的对话(如线下会议、电话通话),并增强数据存储与分析 API。(@Recall、@TechRepublic)

03 有态度的观点

1、AI 教父辛顿:重审 AI 被遗忘的关键路径


近日,诺贝尔奖得主杰弗里·辛顿(Geoffrey Hinton)在 2024 年诺贝尔颁奖典礼上发表的演讲《玻尔兹曼机》全文,正式刊登于权威期刊《现代物理学评论》。


演讲中,他系统性地回顾了人工智能发展史上的一条关键但几乎被遗忘的技术路线。辛顿指出,在 1980 年代,与今天无处不在的「反向传播」算法并存的,是基于物理学思想的「玻尔兹曼机」。


他强调,这一模型的学习机制并非依赖复杂的误差信号回传,而是通过一个优雅的「清醒-睡眠」循环。「你本质上是在教导网络:要相信清醒时所见,而不信睡梦中所梦」,通过这种方式让模型的内部「想象」与外部现实达成一致。在谈及这段历史的转折时,辛顿分享了「玻尔兹曼机」如何演化并最终成为引爆深度学习革命的关键催化剂。


他认为,正是这一路线的技术突破,才使得深度神经网络在 2012 年前后于语音识别等领域取得决定性成功。他将此过程生动地比喻为,「玻尔兹曼机就像一种‘历史的酶’,它催化了深度学习的诞生,而一旦反应完成,酶本身也就不再被需要了。」在展望未来时,辛顿表达了对这一「过时」技术的深刻信念。反向传播在生物学上难以解释,而玻尔兹曼机的「睡眠」阶段所代表的学习过程,可能更接近大脑真实的运作机制。


他坚信:「当我们有一天搞明白大脑如何学习时,一定会发现,睡眠中的学习机制是关键一环。」




阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
会议实时转录接口 Recall 完成 3800 万美元融资,深耕对话数据基建;Locally AI 推出本地实时语音交互丨日报_声网_InfoQ写作社区