Perplexity 计划推出低价语音问答硬件；/dev/agents：AI Agents 的操作系统，种子轮估值 5 亿

作者：声网

2024-11-28
浙江
本文字数：4153 字
阅读完需：约 14 分钟

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、Hume 演示结合 Claude Computer Use 语音控制计算机

EVI 是一款能够仅用语音控制计算机的创新产品。基于 Replit 的模板，结合 Hume 的 EVI（情感语音界面）和 Claude 的 Computer Use API，EVI 可以实时处理语音指令，执行计算机控制操作，并通过语音解释其行为，甚至可以在执行过程中被打断以调整任务。

Hume 的前沿语音模型 EVI 2 不仅能生成自己的语言，还能像演员读剧本一样朗读其他语言模型的内容。EVI 是唯一一个既能与任何大语言模型互操作，又可以作为 API 使用的语音对语音模型。

开源代码：https://replit.com/@jerhadf/Hume-Anthropic-Computer-Use(hume_ai@X)

2、5600 万种子轮估值 5 亿，AI Agents 的操作系统来啦！昨日，一个操作系统领域的航空母舰团队融了一个特别大的种子轮 5600 万美元。

昨日，一个操作系统领域的航空母舰团队融了一个特别大的种子轮 5600 万美元。

该团队几乎全是操作系统的超级人才，曾开发过最近三代的操作系统，包括如安卓系统、可穿戴设备以及 AR/VR。

该团队想要打造一个 AI Agents 的操作系统。逻辑如下：

目前，包括微软、Anthropic 和 OpenAI 等越来越多的美国科技公司都在构建 AI Agents，这些 Agents 可以执行如预订航班或是以极少的人工输入来编写代码等任务，目标是让人们与 AI 的互动就像是与真正的同事或助手互动一样。

但是这其中还缺少了一个关键部分，那就是：如果有朝一日，Agents 能像应用程序一样无处不在，那么开发人员就需要一个通用的技术框架来连接这些服务，并允许它们之间相互通信——类似于苹果的 iOS 或谷歌的安卓。

因为目前看，Agents 的前景已经明朗，但作为开发人员，构建任何好的东西都太难了。换句话说，我们需要一个像安卓一样的 AI 时刻。为了解决该问题，该团队计划构建一个可以在手机、笔记本电脑，甚至是汽车上运行的基于云的操作系统。他们还希望创建一个新的用户界面，让人们能够更自然地与各种硬件设备上的 Agents 交互。

该公司的名字也很酷：/dev/agents，其四位联合创始人的背景分别如下：

CEO 戴维。辛格尔顿：他曾任美国金融科技公司 Stripe 的 CTO。更早之前，他曾担谷歌安卓产品的工程副总裁。
CTO Ficus Kirkpatrick 曾任安卓早期工程师和 Meta 的增强现实和虚拟现实副总裁。
首席产品官 Hugo Barra 曾任谷歌安卓产品管理副总裁和 Meta 的 Oculus 副总裁。
首席设计官尼古拉斯。格特克夫曾任谷歌 Chrome OS 的首席设计师和 Dropbox 的高管。

此外，/dev/agents 还另有两名员工。公司计划保持灵活运营，类似安卓早期的运营方式。

目前，该公司确定计划投资的一个主要领域是计算推理，这是构建运行 Agents 的操作系统所必需的。

这一轮大型种子轮由 Index Ventures、谷歌成长型投资基金 CapitalG 联合领投。此外，数十位天使也参与了，包括：Scale AI 的首席执行官 Alexandr Wang 、Palo Alto Networks 的首席执行官 Nikesh Arora 和 OpenAI 的联合创始人 Andrej Karpathy 等。

需要特别强调一下的是：5600 万美元的种子轮融资，对 /dev/agents 的估值是 5 亿美元。（@硅发布）‍

3、阿里发布 QwQ-32B-Preview：挑战 OpenAI 推理模型，具备自我事实核查能力

阿里巴巴 Qwen 团队近日发布 QwQ-32B-Preview 推理人工智能模型，为人工智能领域带来重大突破。这款拥有 325 亿参数的模型不仅能处理 32，000 个单词的长文本提示，还在多项基准测试中超越了 OpenAI 的 o1 系列。

在 AIME 和 MATH 等关键测试中，QwQ-32B-Preview 展现出卓越的推理能力，尤其是在解决复杂逻辑和数学问题方面表现突出。该模型通过独特的自我事实核查机制，有效避免了传统 AI 模型常见的推理陷阱。

与其他 AI 模型不同，QwQ-32B-Preview 采用提前规划和执行策略来寻找问题解决方案。目前，该模型已在 Hugging Face 平台上发布，并采用 Apache2.0 许可证，意味着开发者可以自由用于商业应用。

尽管模型性能令人瞩目，阿里巴巴也坦诚地指出其存在一些局限性，如可能意外切换语言、陷入推理循环，以及在常识推理方面的不足。（@AIbase 基地）

4、昆仑万维「天工大模型 4.0」o1 版启动邀测，具备中文逻辑推理能力

昆仑万维集团于昨日（11 月 27 日）宣布，正式推出具有复杂思考推理能力的系列模型 ——「天工大模型 4.0」o1 版（Skywork o1）。

据介绍，Skywork o1 是由昆仑万维集团发布的具有「慢思考推理能力」的系列模型，是国内第一款具备中文逻辑推理能力的 o1 模型。不同于现有的复现 OpenAI o1 模型的工作，Skywork o1 不仅在模型输出上内生了思考、计划、反思等能力，在标准评测集上对比普通模型推理能力大幅上升，让模型拥有了思考和反思带来的推理能力的提升。

此次发布的三款模型如下：Skywork o1 Open：一款基于 Llama 3.1 8B 的开源模型，该模型在同生态位开源模型中评测指标大幅提升达到 SOTA 水平，并解锁了许多轻量级模型无法解决的复杂数学任务。Skywork o1 Lite：该模型具备完整的思考能力，具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。Skywork o1 Preview：这款模型是本次完整版的推理模型，搭配自研的线上推理算法，对比 Skywork o1 Lite 有着更多样和「深度」的思考过程，更完善和更高质量的推理。（@IT 之家）

5、OpenAI 获得软银 15 亿美元新投资

据「CNBC」报道，OpenAI 获得软银 15 亿美元的新投资，并允许员工在公开招标中出售股份。

根据内部消息透露，此项计划预计将在本周内正式完成，而在此之前，这一消息并未被外界所知。同时报道还指出，此次投资由软银集团创始人孙正义强力推动，在向 OpenAI 上一轮融资投入了 5 亿美元后，孙正义一直坚持要求获得更多的股份。同时有人员透露，这项收购要约与 OpenAI 的未来战略规划（即 OpenAI 将重组为营利性企业的潜在计划）并无直接关联，而是孙正义对 OpenAI 技术实力和未来发展潜力的认可与信任。

报道中还指出，在今年 6 月之前，OpenAI 对要约收购采取了较为严格的限制，规定中公司来决定谁可以参与股票销售。但在今年夏天，OpenAI 改变了二级股票交易政策，允许现任和前任员工平等参与年度收购要约。(@APPSO)

02 有亮点的产品

1、ElevenLabs 推新功能 GenFM，AI 生成多声道播客

人工智能初创公司 ElevenLabs 于周三推出了一项新功能，名为 GenFM，该功能允许用户上传不同类型的内容以生成多声道播客，类似于谷歌的 NotebookLM。

这项功能已在 ElevenLabs Reader 的 iOS 应用中上线，支持 32 种语言，包括英语、印地语、葡萄牙语、中文、西班牙语、法语、德语和日语等。

使用 GenFM 时，用户可以首先上传 YouTube 视频、文本或文档，应用程序会自动选择两个声音来创建播客。

ElevenLabs 提供了十多种声音供用户选择。应用程序在准备 AI 生成的播客时，用户可能会看到一些有趣的提示，比如「添加一些停顿」和「插入一些填充词」。在当前许多工具帮助人们去除「嗯」和「啊」的背景下，ElevenLabs 却选择为其 AI 生成的播客添加一些人性化的元素。

ElevenLabs 的移动增长负责人 Jack McDermott 在接受采访时表示：「我们讨论了在多大程度上引入『嗯』、『啊』、『嗯哼』、笑声和呼吸等类似人类对话的填充词或覆盖声音。我们的目标是在自然人类对话和内容实用性之间找到适当的平衡。」

他还指出，优秀的长格式播客中往往干扰较少，更自然、更深入的对话流是他们追求的体验，旨在使音频叙事在不同声音和语言中更易于访问。未来，ElevenLabs 计划支持更多的自定义选项，并允许用户添加多个来源来创建生成式 AI 播客。（@AIbase 基地）

2、Perplexity 计划推出低价语音问答硬件

近期，Perplexity AI CEO Aravind Srinivas 在 X 平台发文，表示他们将研发一款价格低于 50 美元的简单硬件设备。

Aravind Srinivas 表示，这款硬件设备可以通过语音交互来「可靠地」回答用户的问题，并且该设备将专注于语音问答这一核心功能。

在推文中他表示，如果该帖子获得 5000 以上的点赞，这一设想将进入实现阶段，目前该帖子已获得超过 8000 点赞。(@APPSO)

03 有态度的观点

1、a16z 前合伙人重磅演讲：企业 FOMO 情绪严重，未来 AI 模型将以周为速度迭代

在 Slush 2024 大会上，顶级风投 a16z 前合伙人、美国知名独立分析师 Benedict Evans 发表了题为《AI 吃掉世界（AI Eats the World）》的年度观察演讲，谈到生成式 AI 正在从当前的「炒作周期」迈向实质性发展，真正的生产力高峰预计将在几年后显现。

Evans 说，虽然生成式 AI 的估值急剧攀升，但当前行业仍处于高期待和高估值的阶段，技术的广泛应用与实际价值尚需时间。他谈道，生成式 AI 将经历四个阶段：从最初的惊奇到智能功能，再到自动化，最终成为像普通软件一样普及的基础性技术，融入日常生活。

此外，AI 行业的资本支出正在从单纯的软件开发转向基础设施建设，以支撑 AI 产品的扩展和长期运营。这一转变反映了企业日益加剧的 FOMO（错失恐惧症）情绪，许多公司急于跟进 AI 浪潮，投入巨资以避免被淘汰。

Evans 还谈道，AI 模型的快速迭代和成本下降将是推动市场发展的关键因素。OpenAI 通过技术优化将模型训练成本降低了 90%，Meta 和苹果通过开源和边缘计算等策略，加速 AI 技术的普及与多元化应用。他预测，未来 AI 模型将每几周迭代一次，推动行业持续推出更高效的模型。

随着生成式 AI 逐步从创新工具转变为企业发展的基础性技术，它正在推动效率提升和业务转型。虽然是否能完全取代传统工作流程仍有不确定性，但 AI 在业务中的核心地位已日益形成，成为行业发展的驱动力。（@智东西）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新

发布于: 刚刚阅读数: 4

声网

关注

还未添加个人签名 2021-02-05 加入

声网（NASDAQ:API）成立于2014年。开发者可通过声网API，在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

发布

暂无评论

创作场景

Perplexity 计划推出低价语音问答硬件；/dev/agents：AI Agents 的操作系统，种子轮估值 5 亿

01 有话题的新闻

02 有亮点的产品

03 有态度的观点

声网

评论