阶跃星辰开源 130B 端到端语音大模型 Step-Audio-AQAA;MiniMax 计划发布独立音频生成应用丨日报


开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、Manus 推出完全免费的 Chat 模式 无任何使用限制
Manus 宣布推出全新免费聊天模式,用户可通过简洁界面实现日常咨询、知识查询等即时问答。此次更新同步支持无缝切换至代理模式,无需付费即可执行网页设计、数据分析、股票策略生成等复杂任务,显著降低使用门槛。作为全球首款通用型 AI 智能体,Manus 采用多代理架构,能在独立虚拟机中完成从需求解析到成果交付的全链路任务,覆盖金融分析、旅行规划等数十个场景。此前代理模式需订阅或消耗点数。(@AI 智前沿、@三花 AI)
2、StepFun 开源 130B 端到端语音大模型 Step-Audio-AQAA,基于其自研的 Step-Omni 多模态大模型开发,支持包括四川话、粤语等多种语言
StepFun 开源了其最新的大型音频语言模型 Step-Audio-AQAA,并已在 Hugging Face 上线。该模型拥有 1300 亿参数,基于其自研的 Step-Omni 多模态大模型开发。
Step-Audio-AQAA 是一个完全端到端的模型,专注于音频问答(Audio Query-Audio Answer, AQAA)任务。它能够直接处理原始音频输入并生成自然的语音回答,无需依赖传统的 ASR(自动语音识别)和 TTS(文本转语音)模块,从而简化了系统架构并避免了级联错误。该模型支持多种语言,包括中文(含四川话、粤语)、英语、日语等,并能进行精细的语音特征控制。

Step-Audio-AQAA 由双码本音频分词器、骨干 LLM 和神经声码器三个核心模块组成。
流程为:双码本音频分词器将输入音频转换为语言和语义令牌序列;骨干 LLM(经 SFT、DPO 和模型融合后训练)生成文本和音频令牌交错的输出序列;最后,声码器从音频令牌重建高保真语音波形作为响应。
HuggingFace 链接:
https://huggingface.co/stepfun-ai/Step-Audio-AQAA
StepEval-Audio-360 数据集:
https://huggingface.co/datasets/stepfun-ai/StepEval-Audio-360
论文链接:
https://arxiv.org/abs/2506.08967
相关链接:
https://www.stepfun.com/docs/zh/step-audio-aqaa?studio_code=step-audio-aqaa&studio_id=121368403356246016&studio_type=1(@橘鸭 Juya、@阶跃 AI 官网)
3、阿里开源 Mnn3dAvatar:3D 数字人实现实时高精度面部动作捕捉,可在移动端和 PC 端运行

(图片来源:GitHub)
阿里巴巴近日开源了一款全新的 3D 数字人框架——Mnn3dAvatar。该项目基于阿里自家的轻量级深度学习推理引擎 MNN(Mobile Neural Network)开发,专注于 3D 虚拟角色的实时面部捕捉与动画映射。
Mnn3dAvatar 能够将用户的面部表情实时同步到 3D 虚拟角色上,呈现出立体逼真的效果。与传统的 Live2D 技术不同,它完全基于 3D。该框架不仅支持实时面捕,还能帮助开发者快速创建 3D 虚拟角色模型,适用于直播带货、虚拟展示、虚拟客服等多种商业场景。得益于 MNN 框架的优化,Mnn3dAvatar 具备轻量化部署的特点,可在移动端和 PC 端等多种设备上高效运行。
GitHub 链接:
https://github.com/alibaba/MNN/blob/master/apps/Android/Mnn3dAvatar/README.md (@橘鸭 Juya)
02 有亮点的产品
1、智能家庭陪伴机器人 EBO Air 2 Plus:Enabot 联手声网通过 AI 对话+双向视频,打造家庭陪伴新范式
Enabot(赋之科技)重磅推出了全新智能家庭陪伴机器人 EBO Air 2 Plus ,并携手声网在互动体验上实现全新升级,此次升级引入 AI 探索新玩法,用户可以随时与不同角色的 AI 形象开启聊天对话。双向视频通话功能也是一大亮点,即使远隔千里,也可以随时随地开启视频聊天,化身 EBO 陪伴家中的 TA。
除了 AI 对话和双向视频通话,EBO Air 2 Plus 还具备 AI 追踪、智能巡航、全屋移动、实时监控、定时巡逻、一键寻宠等功能,能够在看护老人小孩、陪伴宠物、家庭安全监控、互动娱乐等多种场景下为家庭提供服务。目前,EBO 系列产品的全球用户总量已经超过 80 万,覆盖 160 多个国家和地区。
声网对话式 AI 引擎支持全球几乎所有大模型厂商,只要与 OpenAI 接口协议兼容的模型,均可原生支持。这意味着 EBO 能够调用更强大、更多样的 AI 大模型,扩充了知识储备和语言理解能力。
基于声网对话式 AI 引擎的选择性注意力锁定,EBO 能够精准识别用户的打断意图,即使周围环境嘈杂,也能锁定对话人声,确保准确识别。
在网络环境复杂多变的家庭使用场景中,声网对话式 AI 引擎可以实现抗丢包 80% 以上,即使断网 3-5 秒,仍能保证对话的流畅性,无论身处家中信号较弱的角落,还是遇到网络高峰时段,用户与 AI 的对话都不会出现卡顿,始终保持顺畅。(@声网)
2、老凤祥跨界推出 AI 智能眼镜,主打老年人市场,支持实时通过语音对话查询天气、了解最新的新闻等
6 月 11 日,在国际养老、辅具及康复医疗博览会以及火山引擎原动力大会上,老凤祥的 AI 眼镜正式亮相。
同时百年老品牌,中华老字号老凤祥官方微信公众号发布了一则即将推出的 AI 智能眼镜宣传视频,吹响了进入 AI 智能眼镜赛道的号角,这也是百年品牌拥抱科技创新的突破性尝试,彰显了老字号主动进化、无界融合的前瞻性。
产品是一款拍摄类的 AI 智能眼镜,配备了摄像头,可以实现「一键拍照」,方便老人第一视角拍摄,捕捉生活里的美好瞬间。
同时,眼镜搭载了豆包大模型,可以基于摄像头进行视觉感知的 Live AI,实现「秒懂世界」,可以识别药品说明书等,方便老人的日常生活。
3、字节否认 AI 眼镜携手老凤祥,计划 7 月上市,继 Ola Friend 遇冷后押注银发经济
据新浪科技消息,老凤祥与字节跳动旗下火山引擎联合打造的多款 AI 智能眼镜将于今年 7 月正式发布。
这是这家百年珠宝品牌首次跨界进军 AI 硬件领域,产品将集成由「豆包」大模型驱动的语音识别、视觉理解、语义对话、电话接听等功能,目标人群锁定为中老年用户群体,聚焦「AI 助老」这一日益受到关注的垂直场景。
6 月 12 日,据财经网消息,火山引擎相关负责人否认了上述消息。负责人表示:火山引擎没有与老凤祥合作打造 AI 智能眼镜的计划。豆包大模型为公开售卖产品,任何客户都可以合规采购。
据悉,6 月 11 日,老凤祥的 AI 眼镜已正式亮相于国际养老、辅具及康复医疗博览会和火山引擎原动力大会上。该款眼镜具备语音导航、实时翻译、智能辅助阅读、情感对话等功能,背后接入的豆包大模型。
早在今年初,《The Information》便报道称,字节跳动正秘密推进一款自研 AI 智能眼镜的研发计划,拟深度融合「豆包」模型,赋予设备语音交互与图像识别等智能能力。
据接近项目的知情人士透露,字节的 AI 眼镜项目早在 2023 年就已启动,并陆续吸引多位具有智能硬件设计经验的工程师加入。
如今,从耳机到眼镜,从 VR 到「AI 助老」应用,字节跳动的硬件路线正悄然转向「小而实用」的智能终端。(@Z Finance、@APPSO)
4、MiniMax 将发布文本推理模型,还计划推出独立的音频应用

半个月前,MiniMax 刚刚发布和开源了视觉推理模型 Orsta(One RL to See Them All)。
MiniMax 今年 3 月做出产品线调整,将旗下现有产品「海螺 AI」更名为「MiniMax」,与公司同名,聚焦文本理解和生成;另外重新推出一个叫「海螺 AI」的产品,主打视频生成,与快手的可灵 AI 和字节跳动的即梦 AI 竞争。
「新皮层」获得消息称,接下来 MiniMax 还将推出独立的音频生成应用,品牌名未知。加上原有的社区型产品星野(国内)和 Talkie(海外),MiniMax 将运营至少 5 款核心产品。
在发布文本推理模型和筹备音频应用之外,MiniMax 已经开始在同名应用中测试 Agent 功能。目前,它可以帮用户做 PPT、制作绘本、进行 DeepResearch(深度研究),还可以开发小游戏、制作网页,用户只需要用自然语言与之交互。与 Manus 相似,MiniMax 看起来想让这个 Agent 足够通用。
Agent 正在测试阶段。「新皮层」获得的消息称,该 Agent 目前主要面向海外用户。(@新皮层 NewNewThing)
5、新版 Siri 预计 2026 年春季推出:能够理解上下文和用户情景,支持在 App 内和跨 App 进行操作

6 月 13 日凌晨,彭博社记者 Mark Gurman 援引知情人士消息,苹果计划将新版 Siri 定在 2026 年春季发布,跟随 iOS 26.4 版本一同登场。
在《Tom's Guide》采访中,Joz 也表示,苹果 AI 的任务是通过理解用户提供的上下文内容,去自主匹配哪些功能的体验最合适,并尽所能发挥作用。同时他也强调,目前 Apple Intelligence 中展现的功能,并非苹果终点。据他透露,苹果希望让名为「智能」的软件消失,但能让 AI 助力用户把每天的事情变得更好。
在去年的 2024 年开发者大会上,苹果公开了自己的 AI 方案:Apple 智能。和以前机械的语音助手比,AI 版本的 Siri 有了理解上下文和用户情景的能力,可以读取屏幕,在 App 内和跨 App 进行操作。
根据 WWDC 上的演示,用户可以直接问类似「我该什么时候去接妈妈?」「我和家人什么时候吃午餐?」等个人问题,Siri 会直接从相关的邮件、短信消息中提取相关信息回答,不需要用户提前设定好日历安排,成为名副其实的「个人助理」。(@APPSO)
03 有态度的观点
1、黄仁勋:我们正在开启新一波 AI 浪潮
日前,英伟达 CEO 黄仁勋在法国巴黎 VivaTech 大会上,发表了 GTC 主题演讲。
黄仁勋提到,在过去的 15 年里,AI 取得了令人难以置信的快速发展:第一波 AI 浪潮是让计算机能够识别信息、理解内容;第二波则是近年来火热的生成式 AI,拥有多模态能力。而现在,人类将开启新一波 AI 浪潮。
随后,黄仁勋再一次搬出了看家本领——各种强大的 AI 运算硬件。而在介绍了一大轮 AI 硬件技术后,黄仁勋引出了下一波浪潮的具体方向——AI 工厂。
和此前演讲的方向一样,黄仁勋依然觉得 AI 工厂是「创收设施」,旨在生产 token。他解释道,token 能够被分配到各行各业的生产性智能中,因此 AI 工厂也已成为一个国家基础设施的一部分。黄仁勋也强调,AI 在逐渐催生出了一场新的工业革命——每个行业都受到 AI 影响,而 AI 也衍生了一个新兴产业。
在演讲尾声,黄仁勋还公布了英伟达的「下一波浪潮想法」:AI 在第四次工业革命中,将会重构工业的每一个环节。从预测的内容来看,人类将会从物理世界引入到代码的虚拟空间中,届时,机器人可能就变成了物理世界的劳动者,而我们则是虚拟世界中的「指挥官」。(@APPSO)
2、字节技术副总裁:TRAE 想做 AI Development
日前,字节跳动技术副总裁洪定坤在火山引擎 Force 原动力大会上,通过字节旗下 AI 原生 IDE「TRAE」,分享了自己对 AI Coding 的想法。
洪定坤称,团队一直觉得 AI 大模型确实会给 Coding 带来真正的变革。同时他也透露,目前 TRAE 的月活用户已经超过了 100 万,并强调 AI Coding 已经在程序员的工作中切切实实地起到了重要的作用。
洪定坤分享了「为什么做 AI Coding」的几个想法:技术普惠,AI 让人人都是开发者;提升研发效率;追求智能上限。他也透露,如今字节跳动内部已有超过 80% 的工程师,在使用 TRAE 这样的产品辅助开发,还有相当比例的代码是通过 AI 生成的。
对于 TRAE 的未来,洪定坤喊出「不只是 AI Coding,更是 AI Development(AI 开发)」的口号。其表示,转变到 AI Development 后,开发者能够大幅压缩工作时间,提升效率。(@APPSO)

更多 Voice Agent 学习笔记:
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻
评论