苹果鼠标有望加入 AI 语音控制功能;Accent Oracl :准确识别你口音的 AI 丨 RTE 开发者日报
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、曝苹果或已停止生产第一代 Vision Pro 头显
据 MacRumors 报道,苹果的第一代 Vision Pro 头显现在可能已经停产。报道指出,据称苹果已暂停最初的第二代 Vision Pro 的工作至少一年,以专注于开发低成本的头显。
此前,The Information 曾援引多位生产方面人员的消息报道,称苹果突然减少了 Vision Pro 头显的产量,并可能在 2024 年底前完全停止生产这个设备。
生产规模的缩减从初夏开始,可能表明目前苹果的库存中有足够数量的 Vision Pro 设备,可以满足该设备到明年的需求。
The Information 的报道指出,Vision Pro 供应商已经生产了足够 50 万到 60 万副头显使用的组件,由于苹果疲软的销量预测,一些工厂在 5 月份就停止了零部件的生产,大量部件在仓库堆积。
苹果也通知了 Vision Pro 的组装商立讯精密可能要在 11 月停止生产,目前立讯精密每天生产约 1000 副头显,只有高峰产量的一半。(@APPSO)
2、Hugging Face 推出 SmolAgents:三行代码打造智能代理,简化 AI 开发
在传统的 AI 开发中,构建智能代理一直是一项复杂且技术要求高的任务。开发人员需要处理 API 集成、环境配置、依赖项管理等多个繁琐的步骤,这使得构建智能代理既耗时又费力。然而,Hugging Face 最近推出的 SmolAgents 工具包为开发人员提供了一种全新的简化方式,使得创建智能代理变得更加简单和高效。
SmolAgents 的最大亮点是其轻量级设计和简洁的 API 接口,开发人员只需三行代码即可创建一个功能强大的智能代理。这一工具包基于 Hugging Face 的预训练模型,简化了数据检索、代码执行和任务管理等多项复杂功能。SmolAgents 的出现,标志着 AI 开发的门槛正在降低,AI 技术的民主化和可访问性得到了进一步推动。(@AIbase 基地)
3、智谱深度推理模型 GLM-Zero 预览版上线,2025 年考研数学一得 126 分
智谱官方近日发布了 GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。
GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。
据介绍,同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面的表现大幅提升,其在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。
在数学方面,GLM-Zero-Preview 具有强大的归纳与演绎能力,能够快速处理复杂的数学运算,解答包括代数、微积分、概率统计等领域的问题。以 2025 年考研数学一为例,GLM-Zero-Preview 得分为 126。
官方表示,目前的 GLM-Zero-Preview 与 OpenAI 的 o3 模型还有不少的差距。将持续优化迭代强化学习技术。很快将会推出正式版 GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术。(@IT 之家)
4、阿里云宣布 2024 年度第三轮大模型降价
2024 年 12 月 31 日,阿里云宣布 2024 年度第三轮大模型降价,通义千问视觉理解模型全线降价超 80%。
据悉,其中 Qwen-VL-Plus 直降 81%,输入价格仅为 0.0015 元/千 tokens,创下全网最低价格;更高性能的 Qwen-VL-Max 降至 0.003 元/千 tokens,降幅高达 85%。
目前,按照最新价格,1 块钱可最多处理约 600 张 720P 图片,或 1700 张 480P 图片。(@APPSO)
02 有亮点的产品
1、百度增设搜索产品:上线「AI 搜」,通过 @与不同智能体交互
百度近日在百度搜索 Web 端首页上线了百度「AI 搜」(Chat.baidu.com)入口,推动百度搜索改版升级。据了解,「AI 搜」基于原百度搜索 AI 伙伴改版升级而来,在此前的基础上做功能升级。
百度「AI 搜」是基于百度文心大模型打造的桌面端 AI 搜索引擎,目前内容侧已经打通百度搜索引擎、百度健康、百度律临、百度文库、百度教育等内容生态。
近期,360 集团、抖音、小红书等先后推出 AI 搜索产品,引发市场广泛关注。实测发现,目前百度「AI 搜」主要提供包括话题探索、问题解决、决策辅助、知识答疑、主题研究、学习创作等功能,覆盖文生图、文生文、逻辑推理、多轮对话、智能摘要、AI 修图等 AI 技术。此外,百度「AI 搜」也提供了文心智能体入口,在对话框中可通过 @方式与不同智能体进行交互,方便用户使用和创建智能体。
有知情人士透露,目前百度 App 也将进行页面更新,或将其搜索框与 query 推荐结合,以更加简洁的功能界面提升用户体验。
此前,百度创始人、董事长兼首席执行官李彦宏曾在三季度财报电话会上透露,百度将于 2025 年初推出文心大模型新版本,巩固其在人工智能基础模型领域的领先地位,从而为搜索业务提供强大的技术支持。据最新数据,百度 App 的 AI 功能已覆盖近七成月活用户,百度搜索上超过 20% 的搜索结果页面涵盖 AI 生成内容。(@IT 之家)
2、Accent Oracl :准确识别你口音的 AI
https://start.boldvoice.com/accent-guesser
Accent Oracle 是由专门从事口音训练的公司 BoldVoice 创建的 AI。BoldVoice 是一个由 AI 驱动的语言学习平台,但它不是典型的英语导师。它不会教你词汇或语法,而是专注于改进你的美式口音。
然而,Accent Oracle 不是训练你的口音,而是识别你的口音。你只需要阅读一段简短的文字,然后 Oracle 就会分析你的声音,在几秒钟内猜出你的口音。
它由庞大的非母语人士数据库提供支持,这意味着它不依赖于诸如「如果他们将 X 发音为 Y,那么他们来自 Z」之类的刻板印象。相反,它会捕捉语音中的细微差别并检测出您自己永远不会注意到的模式。
有趣的是,Accent Oracle 不仅能够精确的说出测试者的口音,甚至还能辨别出测试者口音中血统的影响(测试者确认自己是波斯人,但 Accent Oracle 测试出他的口音中有 17% 的土耳其语的影响)。(@Voice AI Newsletter)
3、苹果新款妙控鼠标有望加入 AI 语音控制功能
据爆料人马克古尔曼透露,苹果公司可能在其下一代妙控鼠标中引入 AI 语音控制功能,这一消息引起了公众的广泛关注。古尔曼强调,尽管 AI 技术的融合已成为硬件设备发展的趋势,但目前并没有确凿的证据显示苹果新款妙控鼠标将支持 AI 语音控制。
在苹果最新推送的 iOS18.1 正式版更新中,新增了名为「Apple Intelligence」的苹果智能功能,但国内用户及许多非英语用户暂时还无法体验到这项服务。有消息称,苹果正在与包括百度在内的国内企业进行洽谈,旨在引入大型 AI 模型,提升 iPhone 的 AI 体验。
古尔曼还提到,尽管现有的妙控鼠标已将充电接口从 Lightning 升级为 USB-C,但接口位置仍位于鼠标底部,这导致用户在充电时无法使用鼠标。针对这一用户痛点,古尔曼透露苹果正在开发一款既现代又能够解决实际问题的新产品,其中就包括对充电接口位置的改进。(@AIbase 基地)
03 有态度的观点
1、Meta 首席科学家杨立昆:实现 AGI 最乐观需至少五到六年
Meta 首席科学家、图灵奖得主杨立昆(Yann LeCun,法国人)在 29 日的「Into the Impossible」播客节目中谈到了自己对通用人工智能的看法。
他表示,目前 AI 的负面影响被过度放大,其能力目前仍非常有限。「在最乐观的情况下,AGI 的实现至少尚需 5-6 年。」当前社会对 AI 普遍担忧,甚至不乏一些关于 AI「可能导致的末日」有关观点,杨立昆认为其忽视了 AI 的实际发展状况和潜在的积极影响。
他表示,目前 AI 在理解和操作物理世界方面的能力仍非常有限,因为其主要通过文本数据进行训练,缺乏对物理世界直观理解的能力,无法像人类或动物去与环境自然互动。「譬如,一个 10 岁的孩子或者一只猫都能通过『直观物理(intuitive physics)』来理解如何与物理世界互动,像是规划跳跃轨迹或理解物体的运动。而目前的 AI 系统,尚不具备这些能力。」(@IT 之家)
2、Perplexity CEO:模型会越来越商品化
前段时间,Perplexity 联合创始人兼 CEO Aravind Srinivas ,在斯坦福商学院与 MBA 学生 Aislin Roth 进行了一次深入对话。
在采访时,Aislin Roth 问到,Perplexity 既不拥有内容,也不拥有模型。其技术壁垒是什么?为什么 Perplexity 的方法比直接的纵向整合更好?Aravind Srinivas 则给出了这样的回答:
我们确信一点:模型会越来越商品化。如果你想成为模型提供商,就需要巨额资金支持,并且需要承受每年亏损数十亿美元的风险。我们既不具备这样的条件,也不希望走这条路。所以我们决定使用现有的模型,并针对最终用户的搜索体验进行优化。
并且,Aravind Srinivas 还表示,模型之外还有很多事情可以做,我们觉得建立一个差异化的业务完全值得。最终,大多数成功的企业都是某种形式的「包装工具」。(@APPSO)
更多 Voice Agent 学习笔记:
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
评论