Meta 收购 AI 音频初创 Waveforms;物业和医疗语音公司 EliseAI 获 a16z 领投,估值 20 亿美元


开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、OpenAI 发布 GPT-5,支持调整语音说话风格如语速、长度、语调等

今天凌晨,OpenAI 正式发布了 GPT-5,CEO Sam Altman 为其「站台」:GPT-5 是全球最佳模型。
官方宣称 GPT-5 在所有方面都碾压前代,并且引入了一个全新的「智能路由」系统,懂得何时「快问快答」,何时「深度思考」。
功能:
智能「变频」:不再是单一模型死磕所有问题。GPT-5 会自动「升档」,为难题启动深度思考模式,普通问题则轻快解决,效率和质量兼得;
无限制语音模式:Plus 用户现在可以几乎无限制地使用语音模式,而免费用户每天也能享受数小时的免费使用时间;
支持自定义 GPT:现在可以将语音模式与自定义 GPT 结合使用;
付费用户专享定制化语音功能:Plus 用户可以体验更智能的语音模式。现支持根据指令,调整说话风格(如语速、长度、语调等),以适应不同的情境。
幻觉降低,事实性大幅提升:与 GPT-4o 相比,事实错误率降低了 45%;在深度思考模式下,错误率更是比 o3 降低了 80%;
编程:不仅能写复杂前端,还能调试大型代码库。能理解排版、留白,一句话生成设计精美的网站或 App;
写作:能理解并创作具有文学深度和韵律的作品,比如写出结构自然的自由诗;
医生:在健康问题上,它会主动提问、标记潜在风险,帮用户更好地与医生沟通;
「人格」可调:官方推出四种预设性格(如愤世嫉俗、倾听者)。
Pro 版拥有「扩展推理」能力,会花更长时间进行并行计算,提供最全面、最精准的答案。在超高难度的科学问题(GPQA)上,它刷新了世界纪录。在与人类专家的「盲测」中,10 次里有近 7 次被认为更优。
Pro 订阅者专属(200 美元/月)。
GPT 将在 30 天后下线旧版标准语音模式。(@APPSO、@三花 AI)
2、小红书开源首个多模态大模型

8 月 8 日,由小红书 hi lab 研发的首个多模态大模型「dots.vlm1」公布并开源。
官方介绍,dots.vlm1 借助一个从零训练的 12 亿参数视觉编码器以及基于 Deepseek V3 LLM 构建,在视觉的理解和推理任务上均有不错的表现。
值得一提的是,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当:
视觉评测集上,dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU/MathVision/OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。
典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。
目前 dots.vlm1 已上架 GitHub、Hugging Face。
Github:https://github.com/rednote-hilab/dots.vlm1
Hugging Face:https://huggingface.co/rednote-hilab/dots.vlm1.inst
体验链接:https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo (@APPSO)
3、百度计划 8 月底前发布 AI 推理新模型,文心 5.0 即将推出
百度计划在 2025 年 8 月底前发布一款新型 AI 推理模型,该模型可处理更复杂任务,旨在与 DeepSeek、OpenAI 等企业竞争。
未来几个月内,百度还将推出核心基础模型「文心大模型 5.0」。此前,该公司于今年 3 月发布文心 4.5 及 X1 模型,其中 4.5 在多模态理解、推理等方面表现超越 GPT4.5,API 价格仅为其 1%;X1 对标 DeepSeek-R1,API 价格约为后者一半。(@德里克文)
02 有亮点的产品
1、科大讯飞推出星火代码画布,通过语音指令快速生成交互网页
科大讯飞推出的 「星火代码画布」 实现了通过语音指令、草图、文字描述等快速生成交互网页,大幅降低开发门槛。
无论是产品经理用一句话生成招聘详情页、设计师上传草图生成界面 demo,还是普通用户制作个税计算器、小游戏,该功能都能高效满足需求,既精准还原 UI 细节,又覆盖工作与日常生活场景,让非技术人员也能轻松实现创意。(@喜爱谱 CAIP)
2、商汤日日新大模型平台接入小米 AI 眼镜,实现全双工实时音视频交互能力

日前,商汤科技宣布其「日日新」大模型交互平台「商量」已创新性且探索性地接入小米 AI 眼镜。
据介绍,小米 AI 眼镜与商汤「日日新」的组合,最大的亮点之一便是全双工实时音视频交互能力,构建了一个如同人与人对话般自然、流畅且不间断的交互闭环。
毫秒级响应,思考即交流:依托「日日新」强大的模型推理能力与底层优化,交互延迟被压缩至毫秒级,用户言语未落,理解已经开始,回应几乎实时生成;
语境连续不中断:「日日新」大模型能深度理解上下文,精准跟踪对话脉络,支持随时打断、纠偏和深入追问,对话如同与真人助手般自然流畅;
复杂环境反馈超稳定:即使在嘈杂的展馆人潮或喧闹的街头,其抗噪性能升级也能确保指令被精准捕捉、理解无误;
深度分析,记忆加持:结合音视频记忆与检索技术,系统能即时关联历史沟通细节(如在向客户复述方案时),提供极具针对性的信息支持。
(@XR 控、@商汤科技 SenseTime)
3、物业和医疗语音 AI 公司 EliseAI 获 a16z 领投,投前估值翻番至 20 亿美元

知情人士透露,专注于物业管理及医疗保健领域的人工智能初创公司 EliseAI 已在新一轮融资中筹集 2 亿美元,投前估值达到约 20 亿美元。
EliseAI 的核心业务是为上述行业提供 AI 语音智能体,用以自动处理来自住户和患者的日常来电问询。
此轮融资由知名风投机构 Andreessen Horowitz (a16z) 领投,使该公司估值较一年前宣布的上一轮融资翻了一番。
EliseAI 同时布局物业管理和医疗保健两大看似迥异的行业,其战略逻辑在于两者运营中的共通痛点为 AI 自动化提供了成熟的应用场景。在这两个领域,员工都需要处理大量重复性问询(如预约、定价、政策咨询等),且常面临非工作时间响应不及时的挑战,这些都为 AI 语音智能体创造了明确的价值点。
相关链接:
https://x.com/theinformation/status/1952733267888640012
(@The Bay Area、@theinformation@X)
4、Meta 收购专注理解和模仿音频中情感的 AI 音频初创公司 Waveforms

8 月 8 日,Meta Platforms 已收购专注于人工智能情感识别与音频模拟的小型初创公司 WaveForms AI。
WaveForms AI 于去年 12 月首次亮相,并宣布获得由 Andreessen Horowitz 领投的 4000 万美元融资。
这家初创公司由 Alexis Conneau 和 Coralie Lemaitre 联合创立——Conneau 曾在 Meta 从事近八年音频研究,后领导 OpenAI 的 GPT-4o 音频研究;Lemaitre 则曾在谷歌负责广告业务战略。
这是 Meta 在 AI 领域的又一重要布局。虽然收购金额未披露,但这一举措显示了 Meta 对 AI 音频技术的重视,预计将进一步增强其在元宇宙和社交媒体平台的 AI 能力。其近期招聘包括曾领导另一家语音 AI 初创公司 Sesame 机器学习业务的 Johan Schalkwyk。
此次收购将为 Meta 的 AI 生态系统注入新的技术力量,特别是在音频处理和生成方面的能力提升。
在四月份 Meta 的财报电话会议上,Meta 首席执行官马克·扎克伯格预言「我们都将拥有一个全天候对话的 AI 助手」。
相关链接:
https://www.theinformation.com/articles/meta-acquires-ai-audio-startup-waveforms?rc=o6xpry
(@财联社、@智星月 AI+、@Z Potentials)
5、谷歌 Pixel 10 系列手机将支持语音指令完成对话式照片编辑
谷歌计划为 Pixel 10 系列搭载 Gemini AI 驱动的「对话式照片编辑」功能,用户可通过文字/语音指令完成换背景、调曝光或擦除人物等操作。该功能初期将独占 Pixel 10 全系,后续可能通过系统更新覆盖旧机型。
外媒指出,谷歌正将软件更新重心转向摄影领域,通过算法优势弥补硬件不足。此外,Pixel 10 还将新增实时反馈构图、曝光等参数的「相机教练」功能,帮助摄影技巧不足的用户优化拍摄效果。(@德里克文)
03 有态度的观点
1、何小鹏:5-10 年后,算力会再提升 10 倍
据《车东西》报道,在全新小鹏 P7 新车发布会结束后,小鹏汽车 CEO 何小鹏与多位媒体进行了交流。
据悉,小鹏全新 P7 在智能辅助驾驶方面,采用「三颗图灵芯片+VLM+VLA」的架构,相比其他车企一般都只有一个 VLA,小鹏坚持实现 VLM+VLA 上车。
当被问及背后考量,何小鹏表示:「第一,我觉得小鹏的算力自研是绝大部分公司中考虑了多场景跟多产品线的公司。第二,我给内部的要求就是 VLA 是更安全的司机,VLM 是更聪明的管家。」其还补充:
今天的算力看起来比以前的车提高了 10 倍,我认为 5-10 年后的算力可能比现在的车再提高 10 倍。不光是小鹏,特斯拉也会用上很强的算力。在明年,最晚在后年,所有车厂都会看到大算力的巨大的价值。
另外,面对特斯拉具备「超大模型参数量」和超大算力的全自动驾驶方案已经抢先落地到 Robotaxi 这两大局面,何小鹏表示「我们也快了」。
值得一提的是,何小鹏也在采访中回应了纯视觉和激光雷达之争这一话题。他表示,小鹏公司在前年就做出决策,小鹏的辅助驾驶、智能辅助驾驶甚至未来的无人驾驶都会坚持走纯视觉路线。
以前纯视觉做不好是因为算力太弱了,视觉看到的东西既没有足够的像素点阵,也没有足够的帧率和时空逻辑。
何小鹏认为,未来纯视觉的上限会远远高过激光雷达,他还举了个例子,称未来的纯视觉方案甚至可以看到路上的钉子,从而让车辆提前做出预判,但激光雷达很难做到。(@APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻
评论