Mistral 开源首个音频模型 Voxtral：转录 + 音频理解；语音转写工具 Willow 筹资 420 万美元丨日报

作者：声网

2025-07-16
四川
本文字数：4591 字
阅读完需：约 15 分钟

Mistral 开源首个音频模型 Voxtral：转录+音频理解；语音转写工具 Willow 筹资 420 万美元丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、智谱清影 AI 视频生成宣布升级

7 月 15 日，智谱清言宣布旗下清影 AI 视频生成功能升级。

官方介绍，相比前一版本，升级后的清影 AI 视频可生成多样的场景风格视频，画面主体更稳定，表现更清晰自然，具体亮点如下：

极致的画面表现：画面清晰度更加，毛发更细腻，色彩更合理；
流畅的动态效果：人物、动物的动作更流畅，肌肉走向更合理；
稳定的画面主体：画面主题更清晰，稳定性更高，畸形问题更少；
多样的场景风格：高清现实风格场景、3D 风格场景表现效果更佳。

目前，升级版清影 AI 视频生成功能已上线清言 App、清言电脑版及网页端 chatglm.cn 。（@ APPSO、@智谱清言）

2、VideoSDK AI Agents：实时对话式 AI 智能体开源框架

VideoSDK AI Agents 是一个 开源框架 ，用于支持开发者构建 实时、多模态的对话式 AI 智能体。

其核心 AI Agent SDK 是一个基于 VideoSDK Python SDK 构建的 Python 框架。该 SDK 作为 AI 模型（如 OpenAI 和 Gemini）与用户之间的实时桥梁，促进无缝的语音和媒体交互。

GitHub: https://github.com/videosdk-live/agents (@ Aarya@GitHub)

3、Mistral 开源首个音频模型 Voxtral：转录+音频理解

法国初创公司 Mistral 推出了首个开源音频模型家族 Voxtral。

据官方介绍，Voxtral 最长可转录 30 分钟的音频内容。由于集成了 Mistral Small 3.1 大模型，它还能理解长达 40 分钟的语音。这意味着 Voxtral 不仅仅是转录，还能深入理解语音内容，甚至能回答相关问题、支持直接针对音频内容生成结构化摘要，无需串联独立的自动语音识别（ASR）和语言模型。

此外，Voxtral 支持基于用户的口语意图，直接触发后端功能、工作流或 API 调用，将语音交互转化为可执行的系统命令，省去了中间的解析步骤。它还支持自动语言检测，涵盖英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。

Mistral 提供了两个版本的「语音理解模型」：

Voxtral Small：参数规模达 24b，专为大规模部署设计，定位与 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash 相似。
Voxtral Mini：参数为 3b，更适合在本地和边缘设备上部署。

此外，还有一个超轻量的转录专用模型 Voxtral Mini Transcribe，专注于转录功能，但速度更快、价格更低，据称比 OpenAI 的 Whisper 更经济且效果更优。

开发者可以免费试用 Voxtral。可以在 Hugging Face 下载其 API，或者直接在 Mistral 的聊天机器人 Le Chat 中体验。根据官方介绍，API 调用的起步价为每分钟 0.001 美元。

Hugging Face:https://huggingface.co/mistralai

相关链接：https://mistral.ai/news/voxtral

报道链接：https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/（@MistralAI、@AI 星球视界）

02 有亮点的产品

1、字节智能眼镜开发代号「天鹅」（Swan）

日前，据 The Information 消息，字节跳动内部正在积极开发一款护目镜形态的「轻量级混合现实设备」，预计将于 2027 年对外公布。无论是产品功能还是定位，都直直瞄准了 AR 领域风头正盛的 Meta。

据知情人士介绍，字节跳动的这款混合现实（MR）目前仍然处在研发阶段，并未具体透露产品的外观，但是其尺寸「与 Bigscreen 的产品近似」，后者推出的 Bigscreen Beyond 系列号称是目前世界上体积最小的 VR 头显。

虽然目前无从得知这款 MR 产品的具体形态，但是根据业内已有产品的方案，字节跳动大概率采用了显示设备与主机设备分离的设计。根据知情人士描述，目前版本的设计中这个包含了计算硬件和电池的主机形似一个冰球，需要在使用时与眼镜部分保持数据线连接。

值得一提的是，字节跳动或还会给这个小主机配备一块自主开发的专用芯片，负责处理来自环境传感器的数据，用于减少屏幕上的虚拟内容与背景现实环境之间的迟滞——功能类似苹果在 Vision Pro 中使用的 R1 芯片。

另外，该款 MR 眼镜将由字节旗下的 Pico 团队负责，开发代号「天鹅」（Swan），或许可以看作是 2023 年 Pico 5 项目因为 VR 市场疲软而被取消后，Pico 产品向 MR 领域转型的证据。(@ APPSO)

2、AI 语音转写工具 Willow 筹资 420 万美元

Willow 是一款 AI 语音转写工具，它能学习并适应用户的个人沟通风格，无论是语调、正式程度还是自然表达方式。用户只需说几句话，Willow 就能自动润色并输出符合您独特风格的内容。

主要功能亮点：

个性化润色：Willow 会学习并适应您的常用语气、正式程度和自然风格，确保输出内容与您融为一体。
智能识别与格式化：它能根据上下文准确识别专业术语、专有名词，甚至支持通过语音指令（如「破折号」、「换行」、「项目符号」）自动文本格式化。
隐私保护：Willow 不存储任何用户的录音和转录内容，所有转写内容仅保存在您的本地设备，充分保障数据隐私安全。

Willow 此轮筹款旨在将其核心的语音交互能力拓展为通用的交互方式。让用户可以仅通过语音指令来控制任何设备、操作任何应用程序，甚至构建复杂的工作流程。

本轮融资由 Boxgroup 领投，Goodwater Capital、Burst Capital 和 Liquid 2 Ventures 跟投，著名投资人如 Instacart 的 Max Mullen 和 HubSpot 的 Dharmesh Shah 也参与投资。

体验链接：https://willowvoice.com/ （@_allanguo@X）

3、OpenArt Story：一键生成完整叙事短视频，支持自动匹配适合的音乐和完整的叙事结构

OpenArt 推出了一个名为 OpenArt Story 的新功能，用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频。该功能支持自动匹配适合的音乐和完整的叙事结构，不仅仅是简短的片段，而是一个完整的故事。还可以根据用户的喜好选择不同的视频风格，满足不同的内容需求。

其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。

ProductHunt.：https://www.producthunt.com/products/openart?ref=producthuntdaily.com （@三花 AI、@ProductHunt）

03Real-Time AI Demo

1、基于 GPT-4o 和强化学习开发的软触手交互机器人

该机器人的对话系统采用双层控制结构。

低层级控制结合了开环指令（如<yes>or <shake>）

高层级控制则通过 GPT-4o 的 Realtime API 实现。GPT-4o 持续监听音频输入，同时本地处理立体视觉信息，检测如挥手、靠近等高级视觉事件，并以文本提示形式发送给 GPT-4o。GPT-4o 随后零样本决策，调用相应的低层级 API。这种方法借鉴了 DeepMind Gemini Robotics 项目，通过生成 Python 控制代码来控制 ALOHA 2，无需机器人特定的微调。

系统在设计上放弃了训练单一的端到端视觉-语言-动作（VLA）模型。这主要是因为软体机器人的复杂性——其尖端位置与缆线长度组合的多重对应关系，使得传统的模仿学习方法难以扩展。因此，系统采用了级联设计，即由专业视觉系统驱动轻量级控制器，为未来集成更高级的学习行为预留了空间。

博客文章：https://www.matthieulc.com/posts/shoggoth-mini/

04 有态度的观点

1、黄仁勋：是否被 AI 淘汰取决于有没有新的创意

近日，英伟达 CEO 黄仁勋接受 CNN 主持人 Fareed Zakaria 的专访，与主持人讨论了很多关键性的 AI 问题：AI 会不会让你变笨？我们是不是正在失去工作，还是即将迎来更多新机会？

面对「AI 会令大批人下岗」或「AI 会令不少岗位消失」这一社会问题时，黄仁勋表示，「如果世界上没有新的创意，那么生产力提升确实可能会导致工作岗位的流失。」同时他也提到：

如果我们拥有源源不断的创意和可以构建更好未来的方式，那么通过提高生产力，我们就能实现这个更好的未来。

黄仁勋表示，人工智能赋能了人们，它提升了人们，缩小了技术差距，结果是越来越多的人能够做更多的事情。同时他也认为，在 AI 时代下，每个人的工作都会受到影响，有些工作会消失，但许多新工作也会诞生。

不少人在面对 AI 会感到迷茫或者害怕，对此，黄仁勋建议大家主动拥抱 AI，ChatGPT、Gemini、Perplexity、Grok 他都有在使用。他认为，AI 会让你变聪明，而不是变傻。他还说，NVIDIA 的每一个工程师都在用 AI，不用都不行。

最后，黄仁勋还预测，人工智能将带来压倒性的积极影响，虽然也会带来一些负面影响，但当那种情况发生时，世界将会积极应对。而整体来看，它将是压倒性的，极其强大。(@ APPSO)

2、Perplexity CEO：AI 浏览器是我们下一个方向

日前，Perplexity CEO Aravind Srinivas 在 Y Combinator 的 AI 创业学院活动上，与 YC 普通合伙人 David Lieb 畅聊了 AI 对于未来互联网、浏览器的影响、变化。

开头，两人就谈及了 Perplexity 目前的方向——浏览器。Aravind 表示，浏览器是公司面向未来下的重大赌注。其尽可能地向大众解释了「面对其他搜索引擎、AI 应用时，为何要选 Perplexity」：

因为我们投入精力到一些垂直领域，尽管其他家有涉及，但它们只是将搜索作为应用其中一层，而我们在那个领域会更胜一筹。

Aravind 认为，浏览器和智能体才是我们真正想下注的下一个方向。「我们把它看作是助手，而不是完全自主的智能体」，Aravind 指出，Perplexity 现在所做的，就如同当时 Google Chrome 的每个标签页都有独立进程时一样令人兴奋。

值得一提的是，Perplexity 近日正式上线了自家 AI 浏览器 Comet，主要核心功能为 Perplexity 的 AI 搜索引擎，用户能够通过该搜索引擎获得 AI 生成的搜索摘要。

接着 Comet 以及公司发展思路，Aravind 也解释了为何选择浏览器这条路：浏览器不再需要用户操心记忆、个性化设计或者其他类似的功能，它能够自己帮你主动记住、设定好，并且能做到很多聊天机器人做不到的事情。

完整视频：https://youtu.be/2jOnoTEk-xA?feature=shared （@ APPSO）

更多 Voice Agent 学习笔记：

GPT-4o 之后，Voice 从 Assistant 到 Agent，新机会藏在哪些场景里？｜Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay：语音输入，如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao：传统软件开发是造桥，AI 开发更像酿酒，提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享：企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互？我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？

a16z 最新报告：AI 数字人应用层即将爆发，或将孕育数十亿美金市场

a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

发布于: 16 小时前阅读数: 2

声网

关注

还未添加个人签名 2021-02-05 加入

声网（NASDAQ:API）成立于2014年。开发者可通过声网API，在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

发布

暂无评论

创作场景

Mistral 开源首个音频模型 Voxtral：转录 + 音频理解；语音转写工具 Willow 筹资 420 万美元丨日报

01 有话题的技术

02 有亮点的产品

03Real-Time AI Demo

04 有态度的观点

声网

评论