写点什么

Mistral 开源首个音频模型 Voxtral:转录 + 音频理解;语音转写工具 Willow 筹资 420 万美元丨日报

作者:声网
  • 2025-07-16
    四川
  • 本文字数:4591 字

    阅读完需:约 15 分钟

Mistral 开源首个音频模型 Voxtral:转录+音频理解;语音转写工具 Willow 筹资 420 万美元丨日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、智谱清影 AI 视频生成宣布升级



7 月 15 日,智谱清言宣布旗下清影 AI 视频生成功能升级。


官方介绍,相比前一版本,升级后的清影 AI 视频可生成多样的场景风格视频,画面主体更稳定,表现更清晰自然,具体亮点如下:


  • 极致的画面表现:画面清晰度更加,毛发更细腻,色彩更合理;

  • 流畅的动态效果:人物、动物的动作更流畅,肌肉走向更合理;

  • 稳定的画面主体:画面主题更清晰,稳定性更高,畸形问题更少;

  • 多样的场景风格:高清现实风格场景、3D 风格场景表现效果更佳。


目前,升级版清影 AI 视频生成功能已上线清言 App、清言电脑版及网页端 chatglm.cn 。(@ APPSO、@智谱清言)


2、VideoSDK AI Agents:实时对话式 AI 智能体开源框架



VideoSDK AI Agents 是一个 开源框架 ,用于支持开发者构建 实时、多模态的对话式 AI 智能体。


其核心 AI Agent SDK 是一个基于 VideoSDK Python SDK 构建的 Python 框架。该 SDK 作为 AI 模型(如 OpenAI 和 Gemini)与用户之间的实时桥梁,促进无缝的语音和媒体交互。


GitHub: https://github.com/videosdk-live/agents (@ Aarya@GitHub)


3、Mistral 开源首个音频模型 Voxtral:转录+音频理解



法国初创公司 Mistral 推出了首个开源音频模型家族 Voxtral。


据官方介绍,Voxtral 最长可转录 30 分钟的音频内容。由于集成了 Mistral Small 3.1 大模型,它还能理解长达 40 分钟的语音。这意味着 Voxtral 不仅仅是转录,还能深入理解语音内容,甚至能回答相关问题、支持直接针对音频内容生成结构化摘要,无需串联独立的自动语音识别(ASR)和语言模型。


此外,Voxtral 支持基于用户的口语意图,直接触发后端功能、工作流或 API 调用,将语音交互转化为可执行的系统命令,省去了中间的解析步骤。它还支持自动语言检测,涵盖英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。


Mistral 提供了两个版本的「语音理解模型」:


  • Voxtral Small:参数规模达 24b,专为大规模部署设计,定位与 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash 相似。

  • Voxtral Mini:参数为 3b,更适合在本地和边缘设备上部署。


此外,还有一个超轻量的转录专用模型 Voxtral Mini Transcribe,专注于转录功能,但速度更快、价格更低,据称比 OpenAI 的 Whisper 更经济且效果更优。


开发者可以免费试用 Voxtral。可以在 Hugging Face 下载其 API,或者直接在 Mistral 的聊天机器人 Le Chat 中体验。根据官方介绍,API 调用的起步价为每分钟 0.001 美元。


Hugging Face:https://huggingface.co/mistralai


相关链接:https://mistral.ai/news/voxtral


报道链接:https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/(@MistralAI、@AI 星球视界)

02 有亮点的产品

1、字节智能眼镜开发代号「天鹅」(Swan)


日前,据 The Information 消息,字节跳动内部正在积极开发一款护目镜形态的「轻量级混合现实设备」,预计将于 2027 年对外公布。无论是产品功能还是定位,都直直瞄准了 AR 领域风头正盛的 Meta。


据知情人士介绍,字节跳动的这款混合现实(MR)目前仍然处在研发阶段,并未具体透露产品的外观,但是其尺寸「与 Bigscreen 的产品近似」,后者推出的 Bigscreen Beyond 系列号称是目前世界上体积最小的 VR 头显。


虽然目前无从得知这款 MR 产品的具体形态,但是根据业内已有产品的方案,字节跳动大概率采用了显示设备与主机设备分离的设计。根据知情人士描述,目前版本的设计中这个包含了计算硬件和电池的主机形似一个冰球,需要在使用时与眼镜部分保持数据线连接。


值得一提的是,字节跳动或还会给这个小主机配备一块自主开发的专用芯片,负责处理来自环境传感器的数据,用于减少屏幕上的虚拟内容与背景现实环境之间的迟滞——功能类似苹果在 Vision Pro 中使用的 R1 芯片。


另外,该款 MR 眼镜将由字节旗下的 Pico 团队负责,开发代号「天鹅」(Swan),或许可以看作是 2023 年 Pico 5 项目因为 VR 市场疲软而被取消后,Pico 产品向 MR 领域转型的证据。(@ APPSO)


2、AI 语音转写工具 Willow 筹资 420 万美元


Willow 是一款 AI 语音转写工具,它能学习并适应用户的个人沟通风格,无论是语调、正式程度还是自然表达方式。用户只需说几句话,Willow 就能自动润色并输出符合您独特风格的内容。


主要功能亮点:


  • 个性化润色:Willow 会学习并适应您的常用语气、正式程度和自然风格,确保输出内容与您融为一体。

  • 智能识别与格式化:它能根据上下文准确识别专业术语、专有名词,甚至支持通过语音指令(如「破折号」、「换行」、「项目符号」)自动文本格式化。

  • 隐私保护:Willow 不存储任何用户的录音和转录内容,所有转写内容仅保存在您的本地设备,充分保障数据隐私安全。


Willow 此轮筹款旨在将其核心的语音交互能力拓展为通用的交互方式。让用户可以仅通过语音指令来控制任何设备、操作任何应用程序,甚至构建复杂的工作流程。


本轮融资由 Boxgroup 领投,Goodwater Capital、Burst Capital 和 Liquid 2 Ventures 跟投,著名投资人如 Instacart 的 Max Mullen 和 HubSpot 的 Dharmesh Shah 也参与投资。


体验链接:https://willowvoice.com/ (@_allanguo@X)


3、OpenArt Story:一键生成完整叙事短视频,支持自动匹配适合的音乐和完整的叙事结构


OpenArt 推出了一个名为 OpenArt Story 的新功能,用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频。该功能支持自动匹配适合的音乐和完整的叙事结构,不仅仅是简短的片段,而是一个完整的故事。还可以根据用户的喜好选择不同的视频风格,满足不同的内容需求。


其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。


ProductHunt.:https://www.producthunt.com/products/openart?ref=producthuntdaily.com (@三花 AI、@ProductHunt)

03Real-Time AI Demo

1、基于 GPT-4o 和强化学习开发的软触手交互机器人



该机器人的对话系统采用双层控制结构。


低层级控制结合了开环指令(如<yes>or <shake>)


高层级控制则通过 GPT-4o 的 Realtime API 实现。GPT-4o 持续监听音频输入,同时本地处理立体视觉信息,检测如挥手、靠近等高级视觉事件,并以文本提示形式发送给 GPT-4o。GPT-4o 随后零样本决策,调用相应的低层级 API。这种方法借鉴了 DeepMind Gemini Robotics 项目,通过生成 Python 控制代码来控制 ALOHA 2,无需机器人特定的微调。


系统在设计上放弃了训练单一的端到端视觉-语言-动作(VLA)模型。这主要是因为软体机器人的复杂性——其尖端位置与缆线长度组合的多重对应关系,使得传统的模仿学习方法难以扩展。因此,系统采用了级联设计,即由专业视觉系统驱动轻量级控制器,为未来集成更高级的学习行为预留了空间。


博客文章:https://www.matthieulc.com/posts/shoggoth-mini/

04 有态度的观点

1、黄仁勋:是否被 AI 淘汰取决于有没有新的创意


近日,英伟达 CEO 黄仁勋接受 CNN 主持人 Fareed Zakaria 的专访,与主持人讨论了很多关键性的 AI 问题:AI 会不会让你变笨?我们是不是正在失去工作,还是即将迎来更多新机会?


面对「AI 会令大批人下岗」或「AI 会令不少岗位消失」这一社会问题时,黄仁勋表示,「如果世界上没有新的创意,那么生产力提升确实可能会导致工作岗位的流失。」同时他也提到:


如果我们拥有源源不断的创意和可以构建更好未来的方式,那么通过提高生产力,我们就能实现这个更好的未来。


黄仁勋表示,人工智能赋能了人们,它提升了人们,缩小了技术差距,结果是越来越多的人能够做更多的事情。同时他也认为,在 AI 时代下,每个人的工作都会受到影响,有些工作会消失,但许多新工作也会诞生。


不少人在面对 AI 会感到迷茫或者害怕,对此,黄仁勋建议大家主动拥抱 AI,ChatGPT、Gemini、Perplexity、Grok 他都有在使用。他认为,AI 会让你变聪明,而不是变傻。他还说,NVIDIA 的每一个工程师都在用 AI,不用都不行。


最后,黄仁勋还预测,人工智能将带来压倒性的积极影响,虽然也会带来一些负面影响,但当那种情况发生时,世界将会积极应对。而整体来看,它将是压倒性的,极其强大。(@ APPSO)


2、Perplexity CEO:AI 浏览器是我们下一个方向


日前,Perplexity CEO Aravind Srinivas 在 Y Combinator 的 AI 创业学院活动上,与 YC 普通合伙人 David Lieb 畅聊了 AI 对于未来互联网、浏览器的影响、变化。


开头,两人就谈及了 Perplexity 目前的方向——浏览器。Aravind 表示,浏览器是公司面向未来下的重大赌注。其尽可能地向大众解释了「面对其他搜索引擎、AI 应用时,为何要选 Perplexity」:


因为我们投入精力到一些垂直领域,尽管其他家有涉及,但它们只是将搜索作为应用其中一层,而我们在那个领域会更胜一筹。


Aravind 认为,浏览器和智能体才是我们真正想下注的下一个方向。「我们把它看作是助手,而不是完全自主的智能体」,Aravind 指出,Perplexity 现在所做的,就如同当时 Google Chrome 的每个标签页都有独立进程时一样令人兴奋。


值得一提的是,Perplexity 近日正式上线了自家 AI 浏览器 Comet,主要核心功能为 Perplexity 的 AI 搜索引擎,用户能够通过该搜索引擎获得 AI 生成的搜索摘要。


接着 Comet 以及公司发展思路,Aravind 也解释了为何选择浏览器这条路:浏览器不再需要用户操心记忆、个性化设计或者其他类似的功能,它能够自己帮你主动记住、设定好,并且能做到很多聊天机器人做不到的事情。


完整视频:https://youtu.be/2jOnoTEk-xA?feature=shared (@ APPSO)



更多 Voice Agent 学习笔记:


GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记


对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验


Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展


ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记


11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记


实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记


级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?


视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台


a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场


a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
Mistral 开源首个音频模型 Voxtral:转录+音频理解;语音转写工具 Willow 筹资 420 万美元丨日报_声网_InfoQ写作社区