写点什么

谷歌发布 Agent SDK,可跨平台开发语音智能体;ViiTor AI 4.0 发布:3 秒样本情感声音克隆,TTS 模型开源

作者:声网
  • 2025-04-14
    四川
  • 本文字数:4752 字

    阅读完需:约 16 分钟

谷歌发布 Agent SDK,可跨平台开发语音智能体;ViiTor AI 4.0 发布:3 秒样本情感声音克隆,TTS 模型开源


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@qqq、@鲍勃

01 有话题的技术

1、OpenAI 宣布本周将发布多款新品



今日凌晨,OpenAI CEO Sam Altman 发文宣布,从明日起,在接下来的一周公司将会发布多款精彩的产品。


日前,Altman 在回复网友时表示,o3 和 o4-mini 会在不久之后发布。而据 The Verge 消息,OpenAI 将会在下周推出 GPT-4.1 系列模型,包括更小版本的 GPT-4.1 mini 和 nano 两个版本。知情人士透露,OpenAI 即将要发布一系列新的 AI 模型,并表示 GPT-4.1 将会是多模态模型 GPT-4o 的改进版。


另据 AI 工程师 Tibor Blaho 挖掘 ChatGPT 的网页时发现,代码中出现了 o4 mini、o4 mini high 和 o3 的相关信息内容。而 The Verge 也表示,o3 和 o4 mini 系列都将会在下周推出,除非 OpenAI 调整发布计划。OpenAI 还在上周六举办了一次小规模开发者倾听会,主要用于反馈 OpenAI 即将开源的新模型。


此外,OpenAI CFO Sarah Friar 近日接受采访时透露,OpenAI 正在开发一款超强的 Agent 编程产品,名为「A-SWE」。相较于传统的开发 AI 助手,A-SWE 能够构建应用程序、处理拉取请求、进行质量保证、修复错误和编写文档。


值得一提的是,OpenAI 对其 API 规则进行了更新,未来访问 OpenAI 旗下最新大模型,需要通过身份验证的 ID(即 OpenAI 支持的国家/地区之一的政府签发的身份证件,且一个身份证件每 90 天只能验证一个组织),若无法通过验证,将会影响模型的使用。( @APPSO)


2、昆仑万维开源最强数学代码推理模型



4 月 13 日,昆仑万维推出全新升级的 Skywork-OR1(Open Reasoner 1)系列模型。该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。此次开源涵盖三款高性能模型,包括:


  • Skywork-OR1-Math-7B:聚焦数学领域的专项模型,同时也具有较强的代码能力

  • Skywork-OR1-7B-Preview:融合数学与代码能力、兼具通用性与专业性的通用模型

  • Skywork-OR1-32B-Preview:面向更高复杂度任务、具备更强推理能力的旗舰版本


而 Skywork-OR1(Open Reasoner 1)系列模型具体的性能表现如下:


  • 数学推理任务:Skywork-OR1 系列均实现了同参数规模下的最优表现,其中针对数学场景深度优化的专项模型 Skywork-OR1-Math-7B 更是远超当前主流 7B 级别模型;Skywork-OR1-32B-Preview 在所有 benchmark 上均实现了对通义 QwQ-32B 的超越,并在更难的 AIME25 上基本与 DeepSeek-R1 持平。

  • 竞赛编程任务:Skywork-OR1-7B-Preview 与 Skywork-OR1-32B-Preview 在 LiveCodeBench 数据集上均取得了同等参数规模下的最优性能。


其中,Skywork-OR1-32B-Preview 代码生成与问题求解能力已接近 DeepSeek-R1。据昆仑万维方面表示,Skywork-OR1 全面开放、免费使用,以完全开源的形式回馈开发者社区,采用业界最高透明度的开源策略 —— 全面开源了模型权重、训练数据集和完整训练代码(所有资源均已上传至 GitHub 和 Huggingface,配套的技术博客已发布于 Notion)。(@APPSO)


3、谷歌开源 Agent SDK,可开发跨平台语音客服智能体


谷歌在 Google Cloud Next 25 大会上,开源了首个 Agent 开发套件—ADK。这也是 OpenAI 之后第二家大厂发布的标准化智能体 SDK。


ADK 能帮助开发人员极大简化开发超复杂流程的智能体,从大模型选择、自动化流程编排、测试到应用部署可一站式完成,并且支持双向音频、视频、MCP 和最新的 A2A 协议。


例如,通过 ADK 开发一个跨平台的语音客服智能体,大概只需要 100 多行甚至更少的代码就能全部完成。再也不用像以前那样,切换不同平台 API,模型选择或交互逻辑编写复杂代码,极大提升了开发效率。



ADK 简单介绍


ADK 架构以 Python 为主,在参数定义、模型集成、工具整合和指令驱动方面非常好用。简单来说,用 ADK 开发就有点像拼乐高积木一样,喜欢哪块就拼哪个完全释放你的天马行空想法,再也不用为工具和底层技术发愁了。


虽然 ADK 是谷歌开源的,但在大模型兼容方面还是非常灵活的,除了谷歌的 Gemini 系列模型之外,还支持 Anthropic、Meta、Mistral AI、AI21 Labs、CAMB.AI、Qodo 等 200 多个第三方开闭源模型。(@AIGC 开放社区)


4、2033 科技天使轮融资近亿元,打造基于 Agent 的 AIGC 内容平台,支持多模态交互


连续创业者马宇驰,在上一波人工智能大潮中创立三角兽科技,带领公司被腾讯收购,去年重回 AI 赛道,参与到新一轮大模型应用创业中,2033 科技于 2024 年已经完成天使轮融资,由商汤科技和东方国资共同投资近亿元人民币。


2033 科技是一家大模型 2C 应用的人工智能公司,致力于打造 AIGC 内容平台,降低用户使用门槛,辅助用户进行 IP 原创和二创,满足用户和 IP 的深度交互 ,用户可以在平台上高度自由创造「AI Agent+环境+情节+时间」的 3D 世界,快速将喜欢的角色带到眼前,以 3D 的形式呈现,方便分享转发给同好,是年轻用户的兴趣内容平台。


经过 1 年的筹备开发,目前 2033 科技的产品 NYXverse,PC 版已经登陆 steam 进行灰度测试,包括中国区在内全世界地区均可下载。


NYXverse 是 UGC 内容平台,由用户创造上传和定制自己喜欢的角色,目前平台上已经有数千个 IP 的 Agent,支持用户自己上传 VRM 文件,降低用户形象创作门槛,同时支持用户从名字到基础人设、背景故事和对话风格的高度自由定制。


用户在平台上定制自己喜欢的 Agent 后,可以通过多模态交互,进行如看电视、欣赏照片、哄睡等互动。 用户创作的 Agent 会完全符合自己的角色特征,大模型同时自动生成角色在空间中的故事线,增近与 Agent 之间的关系,带来更多类游戏的娱乐体验。(@Z Potentials)


5、微信聊天记录微调大语言模型,使用微信语音消息➕0.5B 大模型实现高质量声音克隆



https://github.com/xming521/WeClone


微信聊天记录微调大语言模型,使用微信语音消息➕0.5B 大模型实现高质量声音克隆,并绑定到聊天机器人,能够实现自己的数字分身核心功能。


  • 使用微信聊天记录微调 LLM;

  • 使用微信语音消息➕0.5B 大模型实现高质量声音克隆 👉WeClone-audio;

  • 绑定到微信、QQ、Telegram、企微、飞书机器人,实现自己的数字分身;


特性与说明


新特性:WeClone-audio 模块,支持对微信语音进行克隆;


  • WeClone 仍在快速迭代期,当前效果不代表最终效果;

  • 微调 LLM 效果很大程度取决于聊天数据的数量和质量;

  • Windows 环境未进行测试,可以使用 WSL 作为运行环境。(@Github)

02.有亮点的产品

1、星纪魅族 StarV Air2 智能眼镜海外版新增阿拉伯语翻译功能,4 月底正式发布


IT 之家 4 月 13 日消息,据星纪魅族官方消息,StarV Air2 海外版新增阿拉伯语翻译功能,将于 4 月底正式发布,该产品已支持 14 种语言实时翻译。



星纪魅族 StarV Air2 智能眼镜于去年 9 月在国内发布, 新品首发价 2799 元起。 该产品采用光波导显示方案,整机重量仅 44 克,采用一体式近视镜设计,提供官方配镜服务,有棕黄两色可选。StarV Air2 使用了星纪魅族自研的 StarVision 显像系统,超小体积单绿光引擎, 支持 2000nit 高亮显示, 采用滚轮交互,功能方面支持实时翻译、闪念速记、会议助手、AR 导航等。(@IT 之家)


2、ViiTor AI 4.0 版本发布:让声音与情感精准共鸣


https://github.com/viitor-ai/viitor-voice


作为全球 10 万+内容创作者信赖的 AI 音视频处理平台,ViiTor AI 在技术沉淀与场景化实践中完成全系功能迭代,正式推出支持「情感驱动 + 极速生成」的 4.0 版本。该版本以三大核心优势引领行业进入智能协作新阶段。


核心技术突破:让声音与情感精准共鸣


  • 零样本秒级情感声纹克隆: 仅需 3 秒音频样本,即可实现高相似度声纹克隆,精准还原音色和语调,并支持向克隆音色中注入情感特质(高兴、愤怒、恐惧等多情绪选择),突破传统克隆技术的情感表达局限。

  • 极速 TTS 引擎: 基于 Tesla T4 平台优化,流式输出首帧延迟低至 200 毫秒,实时生成自然流畅语音,效率远超行业平均水平。

  • 千种声线跨语言生态: 内置近 1000 种音色库,覆盖 18 种语言、多性别及角色风格(如搞笑,播音风格,平静解说等),无需额外训练即可快速适配多元创作需求。


成熟落地验证:从内容创作到企业级解决方案


  • 跨境电商提效 400%: 智能视频翻译系统实现「字幕擦除-翻译-配音-字幕同步」全流程自动化,助力 3C 类目头部商家快速完成多语言产品视频本地化。

  • 短剧出海全链路支持: 唇形同步系统通过动态语义补偿技术,日语、西班牙语等复杂语系的唇形匹配准确率达 86.7%,搭配多角色情感配音功能,让跨文化内容传播更自然生动。


开源赋能开发者:技术共享驱动生态创新


TTS 模型 ViiTor-Voice 已在 GitHub 开源,开发者可自由调用其模型能力;后续将继续开源克隆,情感支持等功能,共同推动 AIGC 技术落地更多垂类场景。(@Viitor)

03.有态度的观点

1、OpenAI CEO:ChatGPT 不是 AGI



近日,在温哥华举行的 TED2025 大会上,OpenAI CEO Sam Altman 与 TED 主席 Chris Anderson 进行了一场对话,分享了 AI 发展的多个关键方面以及他对未来的展望。Altman 在谈到 AI 对就业的影响时表示,人们通常有两种反应:担忧被取代,或将 AI 视为提升能力的工具。他强调,人类创造力仍然至关重要,并承认在知识产权和公平使用方面存在挑战,提议建立新商业模式确保创作者获得合理报酬。关于开源模型,Altman 承认 OpenAI 在这方面行动较晚,但确认他们正在开发一款强大的接近前沿水平的开源模型。他反对将 AI 发展描述为「不负责任的竞赛」,表示大多数 AI 公司都真诚关注安全问题。


Altman 透露,OpenAI 未来将专注于用户体验而非单纯追求模型能力,同时预测 AI 在科学领域的应用将带来重大突破,尤其是在疾病防治和新材料发现方面。而另一个即将到来的飞跃是由自主软件编写代理推动的软件工程。当被问及对 AGI 的定义时,Altman 调侃道:「这个嘛,就像个笑话一样,如果你让 10 个 OpenAI 的研究人员坐在一个房间里,让他们定义 AGI,你可能会得到 14 种不同的定义。」


他还明确表示 ChatGPT 并不是 AGI,因为它无法自主学习、改进自身或独立完成复杂任务。Altman 预计未来的人类将永远生活在比人类更智能的 AI 存在的环境中,「他们将生活在一个所有产品和服务都极度智能、高效的世界里,将无法想象一个计算机无法理解你的意思、无法实现你想象的事的时代。」(@APPSO)



更多 Voice Agent 学习笔记:


a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记


a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记


ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记


端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记


世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过


多模态 AI 怎么玩?这里有 18 个脑洞


AI 重塑宗教体验,语音 Agent 能否成为突破点?


对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来


2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
谷歌发布 Agent SDK,可跨平台开发语音智能体;ViiTor AI 4.0 发布:3 秒样本情感声音克隆,TTS 模型开源_声网_InfoQ写作社区