写点什么

苹果鼠标有望加入 AI 语音控制功能;Accent Oracl :准确识别你口音的 AI 丨 RTE 开发者日报

作者:声网
  • 2025-01-02
    四川
  • 本文字数:4052 字

    阅读完需:约 13 分钟

苹果鼠标有望加入 AI 语音控制功能;Accent Oracl :准确识别你口音的 AI 丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、曝苹果或已停止生产第一代 Vision Pro 头显


据 MacRumors 报道,苹果的第一代 Vision Pro 头显现在可能已经停产。报道指出,据称苹果已暂停最初的第二代 Vision Pro 的工作至少一年,以专注于开发低成本的头显。


此前,The Information 曾援引多位生产方面人员的消息报道,称苹果突然减少了 Vision Pro 头显的产量,并可能在 2024 年底前完全停止生产这个设备。


生产规模的缩减从初夏开始,可能表明目前苹果的库存中有足够数量的 Vision Pro 设备,可以满足该设备到明年的需求。


The Information 的报道指出,Vision Pro 供应商已经生产了足够 50 万到 60 万副头显使用的组件,由于苹果疲软的销量预测,一些工厂在 5 月份就停止了零部件的生产,大量部件在仓库堆积。


苹果也通知了 Vision Pro 的组装商立讯精密可能要在 11 月停止生产,目前立讯精密每天生产约 1000 副头显,只有高峰产量的一半。(@APPSO)


2、Hugging Face 推出 SmolAgents:三行代码打造智能代理,简化 AI 开发


在传统的 AI 开发中,构建智能代理一直是一项复杂且技术要求高的任务。开发人员需要处理 API 集成、环境配置、依赖项管理等多个繁琐的步骤,这使得构建智能代理既耗时又费力。然而,Hugging Face 最近推出的 SmolAgents 工具包为开发人员提供了一种全新的简化方式,使得创建智能代理变得更加简单和高效。


SmolAgents 的最大亮点是其轻量级设计和简洁的 API 接口,开发人员只需三行代码即可创建一个功能强大的智能代理。这一工具包基于 Hugging Face 的预训练模型,简化了数据检索、代码执行和任务管理等多项复杂功能。SmolAgents 的出现,标志着 AI 开发的门槛正在降低,AI 技术的民主化和可访问性得到了进一步推动。(@AIbase 基地)


3、智谱深度推理模型 GLM-Zero 预览版上线,2025 年考研数学一得 126 分


智谱官方近日发布了 GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。


GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。


据介绍,同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面的表现大幅提升,其在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。


在数学方面,GLM-Zero-Preview 具有强大的归纳与演绎能力,能够快速处理复杂的数学运算,解答包括代数、微积分、概率统计等领域的问题。以 2025 年考研数学一为例,GLM-Zero-Preview 得分为 126。


官方表示,目前的 GLM-Zero-Preview 与 OpenAI 的 o3 模型还有不少的差距。将持续优化迭代强化学习技术。很快将会推出正式版 GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术。(@IT 之家)


4、阿里云宣布 2024 年度第三轮大模型降价



2024 年 12 月 31 日,阿里云宣布 2024 年度第三轮大模型降价,通义千问视觉理解模型全线降价超 80%。


据悉,其中 Qwen-VL-Plus 直降 81%,输入价格仅为 0.0015 元/千 tokens,创下全网最低价格;更高性能的 Qwen-VL-Max 降至 0.003 元/千 tokens,降幅高达 85%。


目前,按照最新价格,1 块钱可最多处理约 600 张 720P 图片,或 1700 张 480P 图片。(@APPSO)

02 有亮点的产品

1、百度增设搜索产品:上线「AI 搜」,通过 @与不同智能体交互



百度近日在百度搜索 Web 端首页上线了百度「AI 搜」(Chat.baidu.com)入口,推动百度搜索改版升级。据了解,「AI 搜」基于原百度搜索 AI 伙伴改版升级而来,在此前的基础上做功能升级。


百度「AI 搜」是基于百度文心大模型打造的桌面端 AI 搜索引擎,目前内容侧已经打通百度搜索引擎、百度健康、百度律临、百度文库、百度教育等内容生态。


近期,360 集团、抖音、小红书等先后推出 AI 搜索产品,引发市场广泛关注。实测发现,目前百度「AI 搜」主要提供包括话题探索、问题解决、决策辅助、知识答疑、主题研究、学习创作等功能,覆盖文生图、文生文、逻辑推理、多轮对话、智能摘要、AI 修图等 AI 技术。此外,百度「AI 搜」也提供了文心智能体入口,在对话框中可通过 @方式与不同智能体进行交互,方便用户使用和创建智能体。


有知情人士透露,目前百度 App 也将进行页面更新,或将其搜索框与 query 推荐结合,以更加简洁的功能界面提升用户体验。


此前,百度创始人、董事长兼首席执行官李彦宏曾在三季度财报电话会上透露,百度将于 2025 年初推出文心大模型新版本,巩固其在人工智能基础模型领域的领先地位,从而为搜索业务提供强大的技术支持。据最新数据,百度 App 的 AI 功能已覆盖近七成月活用户,百度搜索上超过 20% 的搜索结果页面涵盖 AI 生成内容。(@IT 之家)


2、Accent Oracl :准确识别你口音的 AI



https://start.boldvoice.com/accent-guesser


Accent Oracle 是由专门从事口音训练的公司 BoldVoice 创建的 AI。BoldVoice 是一个由 AI 驱动的语言学习平台,但它不是典型的英语导师。它不会教你词汇或语法,而是专注于改进你的美式口音。


然而,Accent Oracle 不是训练你的口音,而是识别你的口音。你只需要阅读一段简短的文字,然后 Oracle 就会分析你的声音,在几秒钟内猜出你的口音。


它由庞大的非母语人士数据库提供支持,这意味着它不依赖于诸如「如果他们将 X 发音为 Y,那么他们来自 Z」之类的刻板印象。相反,它会捕捉语音中的细微差别并检测出您自己永远不会注意到的模式。


有趣的是,Accent Oracle 不仅能够精确的说出测试者的口音,甚至还能辨别出测试者口音中血统的影响(测试者确认自己是波斯人,但 Accent Oracle 测试出他的口音中有 17% 的土耳其语的影响)。(@Voice AI Newsletter)


3、苹果新款妙控鼠标有望加入 AI 语音控制功能


据爆料人马克古尔曼透露,苹果公司可能在其下一代妙控鼠标中引入 AI 语音控制功能,这一消息引起了公众的广泛关注。古尔曼强调,尽管 AI 技术的融合已成为硬件设备发展的趋势,但目前并没有确凿的证据显示苹果新款妙控鼠标将支持 AI 语音控制。


在苹果最新推送的 iOS18.1 正式版更新中,新增了名为「Apple Intelligence」的苹果智能功能,但国内用户及许多非英语用户暂时还无法体验到这项服务。有消息称,苹果正在与包括百度在内的国内企业进行洽谈,旨在引入大型 AI 模型,提升 iPhone 的 AI 体验。


古尔曼还提到,尽管现有的妙控鼠标已将充电接口从 Lightning 升级为 USB-C,但接口位置仍位于鼠标底部,这导致用户在充电时无法使用鼠标。针对这一用户痛点,古尔曼透露苹果正在开发一款既现代又能够解决实际问题的新产品,其中就包括对充电接口位置的改进。(@AIbase 基地)

03 有态度的观点

1、Meta 首席科学家杨立昆:实现 AGI 最乐观需至少五到六年


Meta 首席科学家、图灵奖得主杨立昆(Yann LeCun,法国人)在 29 日的「Into the Impossible」播客节目中谈到了自己对通用人工智能的看法。


他表示,目前 AI 的负面影响被过度放大,其能力目前仍非常有限。「在最乐观的情况下,AGI 的实现至少尚需 5-6 年。」当前社会对 AI 普遍担忧,甚至不乏一些关于 AI「可能导致的末日」有关观点,杨立昆认为其忽视了 AI 的实际发展状况和潜在的积极影响。


他表示,目前 AI 在理解和操作物理世界方面的能力仍非常有限,因为其主要通过文本数据进行训练,缺乏对物理世界直观理解的能力,无法像人类或动物去与环境自然互动。「譬如,一个 10 岁的孩子或者一只猫都能通过『直观物理(intuitive physics)』来理解如何与物理世界互动,像是规划跳跃轨迹或理解物体的运动。而目前的 AI 系统,尚不具备这些能力。」(@IT 之家)


2、Perplexity CEO:模型会越来越商品化


前段时间,Perplexity 联合创始人兼 CEO Aravind Srinivas ,在斯坦福商学院与 MBA 学生 Aislin Roth 进行了一次深入对话。


在采访时,Aislin Roth 问到,Perplexity 既不拥有内容,也不拥有模型。其技术壁垒是什么?为什么 Perplexity 的方法比直接的纵向整合更好?Aravind Srinivas 则给出了这样的回答:


我们确信一点:模型会越来越商品化。如果你想成为模型提供商,就需要巨额资金支持,并且需要承受每年亏损数十亿美元的风险。我们既不具备这样的条件,也不希望走这条路。所以我们决定使用现有的模型,并针对最终用户的搜索体验进行优化。


并且,Aravind Srinivas 还表示,模型之外还有很多事情可以做,我们觉得建立一个差异化的业务完全值得。最终,大多数成功的企业都是某种形式的「包装工具」。(@APPSO)



更多 Voice Agent 学习笔记:


对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点


这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势


语音即入口:AI 语音交互如何重塑下一代智能应用


Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……


帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记


市场规模超 60 亿美元,语音如何改变对话式 AI?


2024 语音模型前沿研究整理,Voice Agent 开发者必读


从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户


WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?


人类级别语音 AI 路线图丨 Voice Agent 学习笔记


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
苹果鼠标有望加入 AI 语音控制功能;Accent Oracl :准确识别你口音的 AI 丨 RTE 开发者日报_声网_InfoQ写作社区