写点什么

语音独角兽 ElevenLabs 创始人:人性中的不完美,恰是人愿意互动的关键;秘塔「今天学点啥」:解析复杂内容语音讲解丨日报

作者:声网
  • 2025-06-11
    北京
  • 本文字数:3573 字

    阅读完需:约 12 分钟

语音独角兽 ElevenLabs 创始人:人性中的不完美,恰是人愿意互动的关键;秘塔「今天学点啥」:解析复杂内容语音讲解丨日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、OpenAI o3-pro 正式发布,基于 o3 所打造,拥有更强的数学、科学、编程等领域的表现



6 月 11 日凌晨,OpenAI 正式发布 o3-pro 推理模型,基于 o3 所打造,拥有更强的数学、科学、编程等领域的表现。性能表现上:


  • o3-pro 在专家评估中,评审人员普遍认为 o3 Pro 在多方面都比 o3 模型更进一步,尤其适合用在科学、教育、编程、商业和写作这些需要深度输出的任务中;

  • 在学术评估的基准测试中,o3-pro 的整体表现持续优于 o1-pro 和 o3;

  • OpenAI 还通过四次尝试获取正确答案的方式进行实验发现,o3-pro 能保持较好的性能表现。


据介绍,o3-pro 与 o3 系列一样拥有 200K 的上下文窗口和 100K 的输出。


与 o3 一样,o3-pro 也可调用工具,从而支持搜索、分析文件、视觉推理、使用 Python 等。值得一提的是,o3-pro 支持工具访问,因此响应速度相较于 o1-pro 要更慢。


目前,o3-pro 已向 Pro 和 Team 用户提供,取代 o1-pro;企业版和教育版用户将在下周获得使用权限。


价格方面,o3-pro 输入为 20 美元/百万 token,输出 80 美元/百万 token;而 OpenAI CEO Sam Altman 昨晚宣布,o3 降价 80%——因此 o3 价格来到了输出 2 美元/百万 token、输入 8 美元/百万 token。(@APPSO)


2、Let Them Talk: 开源多功能语音驱动视频生成工具


由中山大学、美团等共同发布的多人对话视频工具「Let Them Talk」 具备多功能性,能够创造出真实对话、唱歌以及交互控制的卡通视频。



它支持单人和多人视频生成,用户可以通过提示词直接操控虚拟角色的行为,表现出良好的泛化性能。此工具灵活地提供了 480P 和 720P 的输出分辨率,同时支持最长 15 秒的视频生成。项目已开源,包括权重和推理代码,技术报告及项目页面供研究与开发使用。


相关链接:


https://github.com/MeiGen-AI/MultiTalk (@果比 AI)


3、苹果推出新语言基座模型,支持 15 种语言和多种智能功能



苹果在 WWDC 大会上推出了新一代语言基座模型,专为增强 Apple Intelligence 功能设计。


「基础模型框架」(Foundation Models Framwork)是苹果为开发者提供的端侧 AI 模型接入框架。使用它,苹果开发者将可以轻松地为自己的 app 接入端侧大语言模型,且无需支付 token 成本。


新模型包括一个约 3B 参数的紧凑型设备端模型和一个高效的服务器端混合专家模型,支持 15 种语言和多种智能功能。开发者只需几行代码即可接入 AI 推理功能。


这些模型在效率和性能上进行了优化,设备端模型降低了内存占用并提高了推理速度,服务器端模型则实现了更高的精度和可扩展性。苹果还通过改进的训练方案和多模态自适应,增强了推理能力和图像理解功能。


基础模型是苹果智能的核心,去年仅用于苹果自家产品和功能使用;而从今天开始,苹果把基础模型开放给开发者,任何第三方应用都可以直接利用这些端侧的基础模型,来实现基于 AI 的功能,为用户带来崭新的体验。


比如现场展示的「Kahoot!」,一个教育类产品,可以用端侧模型生成针对用户定制化的一套题目;


又或者 Alltrails,一款海外徒步玩家必备的产品,即使在深山险境完全无网的情景下,也能为用户提供必要的协助。


相关链接:


https://www.apple.com/newsroom/2025/06/apple-supercharges-its-tools-and-technologies-for-developers/


相关链接:


https://machinelearning.apple.com/research/apple-foundation-models-2025-updates


相关链接:


https://techcrunch.com/2025/06/09/apple-lets-developers-tap-into-its-offline-ai-models/ (@果比 AI、@APPSO)

02 有亮点的产品

1、秘塔 AI 推出「今天学点啥」产品,可以解析复杂内容并提供语音讲解,还支持原文对照模式


完整版:https://metaso.cn/s/Z06lCCR


「今天学点啥」是秘塔 AI 推出的一款学习工具,它能把枯燥的学习资料变成生动有趣的互动课程。该工具不仅能解析复杂内容并提供语音讲解,还支持原文对照模式,可一键导出编辑版 PPT 和逐字稿;适用于自学新知识、职场阅读、学术文献解读和教学课件制作等场景,能大幅提高日常知识摄入效率。


它的亮点功能:


  • 内置丰富学习内容:比如理财板块有「价值股溢价」等专业知识的讲解。

  • 自定义学习主题:如果不喜欢内置内容,可以输入自己感兴趣的主题。

  • 个性化学习体验:

  • 选择你的学习水平(初学者、进阶者、专家)

  • 选择喜欢的讲课风格,比如:

  • 【奏折】——像大臣向皇上汇报一样讲课

  • 【暴躁老哥】——直白犀利,不废话


点击右上角,还能开启原文对照模式,每讲一句中文,能同步对照原文。还能直接导出可编辑的 PPT 以及逐字稿。下载出来的 PPT 可以根据自己的需求做出调整。


体验网址:


https://metaso.cn/study?s=studyy(@夕小瑶科技说、@腾讯研究院、@每晚读一本书)


2、Heynds :一款 AI 写作和语音助手桌面应用程序,支持 Mac 和 Windows


Heynds 是一款 AI 写作和语音助手桌面应用程序,支持 Mac 和 Windows ,旨在显著加速用户的写作流程。


Heynds 可以在 Mac 或 Windows 桌面上的任何应用中通用——包括邮件客户端、Notion 到 Slack,甚至代码编辑器等。用户可以用语音输入后使用 AI 对文本编辑、润色,还支持翻译成 100 多种语言,或生成新内容等操作。



体验链接:


https://www.heynds.com/zh


(@Product Hunt)

03 有态度的观点

1、AI 语音独角兽 11Labs 创始人:语音是人类与技术交互最自然、最高效的接口


ElevenLabs 是一家 2022 年由前谷歌机器学习工程师 Piotr Dabkowski 与前 Palantir 部署策略师 Mati Staniszewski 共同创立的软件公司,专注运用深度学习开发自然逼真的语音合成软件。ElevenLabs 发展迅猛,2025 年 1 月完成 1.8 亿美元 C 轮融资,估值达 33 亿美元。其推出的语音转文本模型 Scribe v1 支持 99 种语言,准确性领先。


本次访谈首发于 2025 年 5 月 30 日 Stripe 频道。


Mati Staniszewski 在访谈中提到「我们一直有个坚定的信念:语音是人类与技术交互最自然、最高效的接口,也是人与设备之间最直观的沟通方式。」


他还强调,「我们很多语音生成工作,正是通过加入这些不完美的『人性化特征』,让合成声音显得更加真实和有情感,这也成为 ElevenLabs 的声音技术与众不同之处。当然,并不是所有场景都适合这种风格。但总体而言,『人性』中的不完美,恰恰是人愿意互动的关键。」


「未来的语音 Agent 会具备上下文感知能力,能够理解你为什么打电话来,并帮助你顺畅地完成后续操作——无论是预约、账单问题、退款申请,整个流程都能变得迅速而顺滑。最初你可能只是想『赶紧搞定』,但它的价值会延伸得更远,比如:它可以帮助你理解一个产品的核心功能,教你怎么用,并让你真正用出价值来。」


最后他提到,在我们构建 ElevenLabs 的技术时,我们不是为了技术而做技术,而是希望通过技术把故事传达出去,让我们触达的不同群体都能理解并参与进来。让人们觉得他们也在这段故事之中。(@Z potentials、@腾讯研究院)


🎤 关于 Elevenlabs 两个联创如何合作打造语音 AI 独角兽,可以阅读我们翻译整理的深度访谈:ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记



更多 Voice Agent 学习笔记:


实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记


级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记


a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记


a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记


ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记


端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记


世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过


多模态 AI 怎么玩?这里有 18 个脑洞


AI 重塑宗教体验,语音 Agent 能否成为突破点?


对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
语音独角兽 ElevenLabs 创始人:人性中的不完美,恰是人愿意互动的关键;秘塔「今天学点啥」:解析复杂内容语音讲解丨日报_声网_InfoQ写作社区