谷歌发布 Agent SDK，可跨平台开发语音智能体；ViiTor AI 4.0 发布：3 秒样本情感声音克隆，TTS 模型开源

作者：声网

2025-04-14
四川
本文字数：4752 字
阅读完需：约 16 分钟

谷歌发布 Agent SDK，可跨平台开发语音智能体；ViiTor AI 4.0 发布：3 秒样本情感声音克隆，TTS 模型开源

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@鲍勃

01 有话题的技术

1、OpenAI 宣布本周将发布多款新品

今日凌晨，OpenAI CEO Sam Altman 发文宣布，从明日起，在接下来的一周公司将会发布多款精彩的产品。

日前，Altman 在回复网友时表示，o3 和 o4-mini 会在不久之后发布。而据 The Verge 消息，OpenAI 将会在下周推出 GPT-4.1 系列模型，包括更小版本的 GPT-4.1 mini 和 nano 两个版本。知情人士透露，OpenAI 即将要发布一系列新的 AI 模型，并表示 GPT-4.1 将会是多模态模型 GPT-4o 的改进版。

另据 AI 工程师 Tibor Blaho 挖掘 ChatGPT 的网页时发现，代码中出现了 o4 mini、o4 mini high 和 o3 的相关信息内容。而 The Verge 也表示，o3 和 o4 mini 系列都将会在下周推出，除非 OpenAI 调整发布计划。OpenAI 还在上周六举办了一次小规模开发者倾听会，主要用于反馈 OpenAI 即将开源的新模型。

此外，OpenAI CFO Sarah Friar 近日接受采访时透露，OpenAI 正在开发一款超强的 Agent 编程产品，名为「A-SWE」。相较于传统的开发 AI 助手，A-SWE 能够构建应用程序、处理拉取请求、进行质量保证、修复错误和编写文档。

值得一提的是，OpenAI 对其 API 规则进行了更新，未来访问 OpenAI 旗下最新大模型，需要通过身份验证的 ID（即 OpenAI 支持的国家/地区之一的政府签发的身份证件，且一个身份证件每 90 天只能验证一个组织），若无法通过验证，将会影响模型的使用。( @APPSO)

2、昆仑万维开源最强数学代码推理模型

4 月 13 日，昆仑万维推出全新升级的 Skywork-OR1（Open Reasoner 1）系列模型。该系列在同等参数规模下实现了业界领先的推理性能，进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。此次开源涵盖三款高性能模型，包括：

Skywork-OR1-Math-7B：聚焦数学领域的专项模型，同时也具有较强的代码能力
Skywork-OR1-7B-Preview：融合数学与代码能力、兼具通用性与专业性的通用模型
Skywork-OR1-32B-Preview：面向更高复杂度任务、具备更强推理能力的旗舰版本

而 Skywork-OR1（Open Reasoner 1）系列模型具体的性能表现如下：

数学推理任务：Skywork-OR1 系列均实现了同参数规模下的最优表现，其中针对数学场景深度优化的专项模型 Skywork-OR1-Math-7B 更是远超当前主流 7B 级别模型；Skywork-OR1-32B-Preview 在所有 benchmark 上均实现了对通义 QwQ-32B 的超越，并在更难的 AIME25 上基本与 DeepSeek-R1 持平。
竞赛编程任务：Skywork-OR1-7B-Preview 与 Skywork-OR1-32B-Preview 在 LiveCodeBench 数据集上均取得了同等参数规模下的最优性能。

其中，Skywork-OR1-32B-Preview 代码生成与问题求解能力已接近 DeepSeek-R1。据昆仑万维方面表示，Skywork-OR1 全面开放、免费使用，以完全开源的形式回馈开发者社区，采用业界最高透明度的开源策略 —— 全面开源了模型权重、训练数据集和完整训练代码（所有资源均已上传至 GitHub 和 Huggingface，配套的技术博客已发布于 Notion）。(@APPSO)

3、谷歌开源 Agent SDK，可开发跨平台语音客服智能体

谷歌在 Google Cloud Next 25 大会上，开源了首个 Agent 开发套件—ADK。这也是 OpenAI 之后第二家大厂发布的标准化智能体 SDK。

ADK 能帮助开发人员极大简化开发超复杂流程的智能体，从大模型选择、自动化流程编排、测试到应用部署可一站式完成，并且支持双向音频、视频、MCP 和最新的 A2A 协议。

例如，通过 ADK 开发一个跨平台的语音客服智能体，大概只需要 100 多行甚至更少的代码就能全部完成。再也不用像以前那样，切换不同平台 API，模型选择或交互逻辑编写复杂代码，极大提升了开发效率。

ADK 简单介绍

ADK 架构以 Python 为主，在参数定义、模型集成、工具整合和指令驱动方面非常好用。简单来说，用 ADK 开发就有点像拼乐高积木一样，喜欢哪块就拼哪个完全释放你的天马行空想法，再也不用为工具和底层技术发愁了。

虽然 ADK 是谷歌开源的，但在大模型兼容方面还是非常灵活的，除了谷歌的 Gemini 系列模型之外，还支持 Anthropic、Meta、Mistral AI、AI21 Labs、CAMB.AI、Qodo 等 200 多个第三方开闭源模型。（@AIGC 开放社区）

4、2033 科技天使轮融资近亿元，打造基于 Agent 的 AIGC 内容平台，支持多模态交互

连续创业者马宇驰，在上一波人工智能大潮中创立三角兽科技，带领公司被腾讯收购，去年重回 AI 赛道，参与到新一轮大模型应用创业中，2033 科技于 2024 年已经完成天使轮融资，由商汤科技和东方国资共同投资近亿元人民币。

2033 科技是一家大模型 2C 应用的人工智能公司，致力于打造 AIGC 内容平台，降低用户使用门槛，辅助用户进行 IP 原创和二创，满足用户和 IP 的深度交互 ，用户可以在平台上高度自由创造「AI Agent+环境+情节+时间」的 3D 世界，快速将喜欢的角色带到眼前，以 3D 的形式呈现，方便分享转发给同好，是年轻用户的兴趣内容平台。

经过 1 年的筹备开发，目前 2033 科技的产品 NYXverse，PC 版已经登陆 steam 进行灰度测试，包括中国区在内全世界地区均可下载。

NYXverse 是 UGC 内容平台，由用户创造上传和定制自己喜欢的角色，目前平台上已经有数千个 IP 的 Agent，支持用户自己上传 VRM 文件，降低用户形象创作门槛，同时支持用户从名字到基础人设、背景故事和对话风格的高度自由定制。

用户在平台上定制自己喜欢的 Agent 后，可以通过多模态交互，进行如看电视、欣赏照片、哄睡等互动。 用户创作的 Agent 会完全符合自己的角色特征，大模型同时自动生成角色在空间中的故事线，增近与 Agent 之间的关系，带来更多类游戏的娱乐体验。(@Z Potentials)

5、微信聊天记录微调大语言模型，使用微信语音消息➕0.5B 大模型实现高质量声音克隆

https://github.com/xming521/WeClone

微信聊天记录微调大语言模型，使用微信语音消息➕0.5B 大模型实现高质量声音克隆，并绑定到聊天机器人，能够实现自己的数字分身核心功能。

使用微信聊天记录微调 LLM；
使用微信语音消息➕0.5B 大模型实现高质量声音克隆 👉WeClone-audio；
绑定到微信、QQ、Telegram、企微、飞书机器人，实现自己的数字分身；

特性与说明

新特性：WeClone-audio 模块，支持对微信语音进行克隆；

WeClone 仍在快速迭代期，当前效果不代表最终效果；
微调 LLM 效果很大程度取决于聊天数据的数量和质量；
Windows 环境未进行测试，可以使用 WSL 作为运行环境。(@Github)

02.有亮点的产品

1、星纪魅族 StarV Air2 智能眼镜海外版新增阿拉伯语翻译功能，4 月底正式发布

IT 之家 4 月 13 日消息，据星纪魅族官方消息，StarV Air2 海外版新增阿拉伯语翻译功能，将于 4 月底正式发布，该产品已支持 14 种语言实时翻译。

星纪魅族 StarV Air2 智能眼镜于去年 9 月在国内发布， 新品首发价 2799 元起。 该产品采用光波导显示方案，整机重量仅 44 克，采用一体式近视镜设计，提供官方配镜服务，有棕黄两色可选。StarV Air2 使用了星纪魅族自研的 StarVision 显像系统，超小体积单绿光引擎， 支持 2000nit 高亮显示， 采用滚轮交互，功能方面支持实时翻译、闪念速记、会议助手、AR 导航等。（@IT 之家）

2、ViiTor AI 4.0 版本发布：让声音与情感精准共鸣

https://github.com/viitor-ai/viitor-voice

作为全球 10 万+内容创作者信赖的 AI 音视频处理平台，ViiTor AI 在技术沉淀与场景化实践中完成全系功能迭代，正式推出支持「情感驱动 + 极速生成」的 4.0 版本。该版本以三大核心优势引领行业进入智能协作新阶段。

核心技术突破：让声音与情感精准共鸣

零样本秒级情感声纹克隆： 仅需 3 秒音频样本，即可实现高相似度声纹克隆，精准还原音色和语调，并支持向克隆音色中注入情感特质（高兴、愤怒、恐惧等多情绪选择），突破传统克隆技术的情感表达局限。
极速 TTS 引擎： 基于 Tesla T4 平台优化，流式输出首帧延迟低至 200 毫秒，实时生成自然流畅语音，效率远超行业平均水平。
千种声线跨语言生态： 内置近 1000 种音色库，覆盖 18 种语言、多性别及角色风格（如搞笑，播音风格，平静解说等），无需额外训练即可快速适配多元创作需求。

成熟落地验证：从内容创作到企业级解决方案

跨境电商提效 400%： 智能视频翻译系统实现「字幕擦除-翻译-配音-字幕同步」全流程自动化，助力 3C 类目头部商家快速完成多语言产品视频本地化。
短剧出海全链路支持： 唇形同步系统通过动态语义补偿技术，日语、西班牙语等复杂语系的唇形匹配准确率达 86.7%，搭配多角色情感配音功能，让跨文化内容传播更自然生动。

开源赋能开发者：技术共享驱动生态创新

TTS 模型 ViiTor-Voice 已在 GitHub 开源，开发者可自由调用其模型能力；后续将继续开源克隆，情感支持等功能，共同推动 AIGC 技术落地更多垂类场景。(@Viitor)

03.有态度的观点

1、OpenAI CEO：ChatGPT 不是 AGI

近日，在温哥华举行的 TED2025 大会上，OpenAI CEO Sam Altman 与 TED 主席 Chris Anderson 进行了一场对话，分享了 AI 发展的多个关键方面以及他对未来的展望。Altman 在谈到 AI 对就业的影响时表示，人们通常有两种反应：担忧被取代，或将 AI 视为提升能力的工具。他强调，人类创造力仍然至关重要，并承认在知识产权和公平使用方面存在挑战，提议建立新商业模式确保创作者获得合理报酬。关于开源模型，Altman 承认 OpenAI 在这方面行动较晚，但确认他们正在开发一款强大的接近前沿水平的开源模型。他反对将 AI 发展描述为「不负责任的竞赛」，表示大多数 AI 公司都真诚关注安全问题。

Altman 透露，OpenAI 未来将专注于用户体验而非单纯追求模型能力，同时预测 AI 在科学领域的应用将带来重大突破，尤其是在疾病防治和新材料发现方面。而另一个即将到来的飞跃是由自主软件编写代理推动的软件工程。当被问及对 AGI 的定义时，Altman 调侃道：「这个嘛，就像个笑话一样，如果你让 10 个 OpenAI 的研究人员坐在一个房间里，让他们定义 AGI，你可能会得到 14 种不同的定义。」

他还明确表示 ChatGPT 并不是 AGI，因为它无法自主学习、改进自身或独立完成复杂任务。Altman 预计未来的人类将永远生活在比人类更智能的 AI 存在的环境中，「他们将生活在一个所有产品和服务都极度智能、高效的世界里，将无法想象一个计算机无法理解你的意思、无法实现你想象的事的时代。」(@APPSO)