写点什么

Kyutai 开源 STT 模型,支持流式传输;AI 虚拟角色桌面设备 Dipal D1:会动、会说话、会回应你丨日报

作者:声网
  • 2025-06-20
    四川
  • 本文字数:3831 字

    阅读完需:约 13 分钟

Kyutai 开源 STT 模型,支持流式传输;AI 虚拟角色桌面设备 Dipal D1:会动、会说话、会回应你丨日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、Kyutai Labs 新开源 STT 模型,支持流式传输和批量推理


Kyutai Speech-To-Text 是一款开源的语音转文本模型,支持流式传输和批量推理两种模式,运行速度极快。它提供两个版本:


1、纯英语 2.6B 参数模型 - 即使作为流式模型,在基准测试中表现也优于 Whisper Large v3


2、轻量级 1B 参数双语模型 - 专为英语/法语实时语音聊天应用优化。


模型亮点:


  • 通过语义语音活动检测实现 500 毫秒端到端延迟;

  • 单个 H100 可处理超过 400 个并发通话;

  • 提供英语(1B 和 2.6B)和法语版本;

  • 使用 MLX 在 iPhone 和 Mac 上原生运行;

  • 使用 Rust 和 PyTorch 构建的开源服务器。


相关链接:


https://kyutai.org/next/stt (@Tu7uruu@X、@三花 AI)


2、Adobe 发布 Self Forcing:基于 Wang 2.1 的实时视频生成


Self Forcing 是 Adobe 最新推出的基于 Wang 2.1 实现的实时流式视频生成模型。该模型在单张 RTX 4090 显卡上即可实现流式视频生成。


Self Forcing 通过在训练过程中模拟推理过程,利用 KV 缓存执行自回归展开,训练自回归视频扩散模型。解决了训练与测试分布不匹配的问题,并实现了在单个 RTX 4090 上实时流式视频生成,同时匹配先进扩散模型的质量。



Self Forcing 官方项目页:


https://self-forcing.github.io/


Hugging Face 在线体验:


https://huggingface.co/spaces/multimodalart/self-forcing


(@三花 AI)

02 有亮点的产品

1、AI 虚拟角色桌面设备 Dipal D1,支持语音交互、触控反馈、手势识别、眼神追踪等多种输入


Dipal D1 是一款「会动、会说话、会回应你」的 AI 虚拟角色桌面设备。


该设备的外形是一个有高清曲面屏的小显示器,有点像全息投影,用户可以设置和定制各种角色让她显示。同时她可以与用户互动,当用户触摸她,她也会有反应。并且她拥有长期记忆能力,能记住用户和她对话的的一切,并持续进化。支持语音交互、触控反馈、手势识别、眼神追踪等多种输入。


该设备配备 8 英寸曲面 OLED 显示屏,配合眼动追踪技术,能实现一种立体、有层次的视觉效果,看起来就像角色真的在面前说话和互动。


而且她还能控制家里的设备,可通过角色界面控制智能家居设备,实现如语音开灯、控制音响等功能。


该 AI 设备能识别用户的情绪、表情和语气,进行自然回应。她不是普通的视频播放设备,而是「能互动」的:


  • 眼动识别:她能「看」用户在看哪里;

  • 声音感应:能听用户说话并回应;

  • 触摸互动:用户可以通过触碰与它互动;

  • 手势识别:通过手势进行指令输入或互动反应。


目前开启了众筹,众筹地址:


https://www.kickstarter.com/projects/dipal-d1/dipal-d1-worlds-first-curved-screen-3d-ai-character-pod


官网:https://www.dipal.net/ (@imxiaohu@X)


2、HeyGen 推出 AI 广告生成工具:三步创建产品视频


HeyGen 最新推出的 Product Placement 功能,只需上传产品照片、选择一个人像、输入文案脚本,即可生成产品介绍视频。


该产品由 Avatar IV 的超逼真手势和唇同步技术驱动。无需摄影棚。无需演员。无需剪辑。现已向所有 HeyGen 用户开放。


HeyGen 官方推文:https://x.com/HeyGen_Official/status/1935702900195619312 (@三花 AI)


3、通义 App 翻译能力重磅升级,同传翻译功能支持英语、日语、韩语、粤语等 10 大语种及多种交互模式


6 月 19 日,通义 APP 迎来重大升级,其翻译能力实现全方位跃升,覆盖文字翻译、同传翻译、文档翻译、图片翻译这四大核心场景,为个人用户和专业人士打造了一款功能强大的「最强翻译综合体」。


此次升级后的翻译功能,支持 119 种语言和方言,在准确率、专业性以及交互体验等多个维度都实现了显著提升。


在文字翻译方面,通义 APP 现已支持 119 种语言与方言的互译,涵盖了印欧语系、亚非语系、南亚语系等众多语系,语言覆盖密度在行业内处于领先地位。


同传翻译功能是本次升级的一大亮点。该功能支持英语、日语、韩语、粤语等 10 大语种,提供了分屏对照、逐句对照、纯译文展示等多种交互模式,用户可以根据不同的使用场景,如会议、旅游、视频通话等,自由选择最适合的模式。而且,通义 APP 的同传翻译不限时、不限次、完全免费。


针对跨语言文档处理的需求,通义 APP 带来了专业级的文档翻译体验。在翻译文档时,它不仅能够保持原文的排版一致,还支持对表格内容进行精准翻译处理。同时,通义 APP 会自动生成全文总结与脑图。


在图片翻译领域,通义 APP 也实现了全面升级,显著提升了图像场景下的多语言理解与生成能力。通义 APP 能够保留图片的排版结构,做到「译文即所见」,在菜单、图文海报等场景中表现尤为出色。(@AI 智前沿)


4、OpenAI 开源客户服务智能体 Demo,多层级智能体支持可视化编排和对话



OpenAI 在 Github 刚开源了一个基于 Agents SDK 的客户服务智能体 Demo。


这个智能体模拟了一个航空公司客户服务 AI 机器人,能够处理各种与旅行相关的查询,并通过动态路由将请求分配给专业多层级智能体实现自动化处理。该智能体采用了 Python 后端和 Next.js 前端构建,支持可视化编排和对话。


该智能体架构主要分为两个部分:Python 后端利用 Agents SDK 处理智能体的编排工作;


Next.js 前端则提供聊天界面以及智能体转换的交互式可视化功能。这种设置使得智能体在对用户查询进行分类、响应或拒绝时,其决策和任务分配过程更加透明。


还包含多个专业的子智能体,例如,分类智能体、座位预订智能体、航班状态智能体、取消智能体和常见问题解答智能体,每个智能体都配置了专门的指令和工具来完成各自的子任务。


Agents SDK 是整个系统的编排核心。每个智能体都被定义为一个可组合的单元,具有提示模板、工具访问、委派逻辑和输出模式。SDK 通过委派连接智能体,支持实时跟踪,并允许开发者使用防护机制强制执行输入/输出约束。这个框架与 OpenAI 内部用于工具使用和推理智能体的框架相同。


开源地址:https://github.com/openai/openai-cs-agents-demo?tab=readme-ov-file (@AIGC 开放社区)

03 有态度的观点

1、OpenAI 联合创始人:Agent 是新的数字信息消费者与操作者


日前,OpenAI 联合创始人、特斯拉前 AI 负责人 Andrej Karpathy 在 Y Combinator 的 AI 创业学院活动上,进行了个人演讲。


本次演讲中,Karpathy 提出了「软件 3.0 时代」这一概念,他认为自然语言正在取代传统代码,而大型语言模型(LLM)则成为新的「万能计算机」。


Karpathy 指出,软件 3.0 时代下,自然语言(如英语)将作为「编程接口」,直接给大语言模型下达命令,让模型自己完成剩下的所有工作。Karpathy 直言,这并非一次工具迭代,而是「根本性变革」。


同时,Karpathy 还提出:大语言模型兼具公共设施、晶圆厂、操作系统这三种行业的属性。如「晶圆厂」:训练大模型的巨额算力与研发壁垒,使得少数实验室成为新的「芯片制造商」。


另外,Karpathy 还展望了 AI Agent(智能体)的未来。他表示,Agent 既非人类也非传统程序,而是新的「数字信息消费者与操作者」。其进一步解释称,「因为 Agent 需要我们重新设计文档、接口乃至网络协议,为它们提供可读、可执行的『原生』内容。」


原采访视频:https://www.youtube.com/watch?v=LCEmiRjPEtQ

04 有看点的活动

1、ElevenLabs 对话智能体在线黑客松,角逐数万美元奖金



ElevenLabs 为庆祝创建 100 万个智能体,将于 7 月 2 日星期三的下午 3 点至 5 点(UTC)举办一场构建在线对话智能体的比赛。


比赛主题:在 2 小时内构建最优秀的智能体,角逐超过 2 万美元的奖金;


时间:7 月 2 日星期三,下午 3 点至 5 点(UTC);


形式:线上比赛,支持 Discord 直播;


平台:ElevenLabs 会话式人工智能;


活动详情链接:https://elevenlabs.io/blog/online-conversational-agent-hackathon (@elevenlabsio@X)



更多 Voice Agent 学习笔记:


实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记


级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记


a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记


a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记


ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记


端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记


世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过


多模态 AI 怎么玩?这里有 18 个脑洞


AI 重塑宗教体验,语音 Agent 能否成为突破点?


对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
Kyutai 开源 STT 模型,支持流式传输;AI 虚拟角色桌面设备 Dipal D1:会动、会说话、会回应你丨日报_声网_InfoQ写作社区