写点什么

米哈游联创推出可对话「猫猫」AI,具备情绪与独立思考;微软研究发现空间音频可将 AI 同传理解度翻倍丨日报

  • 2025-12-03
    北京
  • 本文字数:4445 字

    阅读完需:约 15 分钟


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@瓒 an、@鲍勃

01 有话题的技术

1、DeepSeek V3.2 正式版发布:推理比肩 GPT-5,首推 Speciale 版本拿下奥数金牌



昨天,深度求索 DeepSeek 正式发布了 V3.2 系列模型,包括标准版「DeepSeek-V3.2」与增强版「DeepSeek-V3.2-Speciale」


官方测试显示,该模型在公开推理类 Benchmark 中达到了 GPT-5 水平,仅略低于 Gemini-3.0-Pro。同时,相比 Kimi-K2-Thinking,V3.2 输出更为简洁,大幅降低了计算开销与用户等待时间。


DeepSeek-V3.2 还首次实现了「思考模式下的工具调用」,通过大规模 Agent 训练数据合成方法,显著提升了模型的泛化能力。这一功能使模型能够在复杂任务中多轮思考并调用工具,最终给出更详尽准确的回答。


官方表示,在高度复杂任务上,Speciale 模型大幅优于标准版本,但消耗的 Tokens 也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。


DeepSeek-V3.2 的思考模式也增加了对 Claude Code 的支持,用户可以通过将模型名改为 deepseek-reasoner,或在 Claude Code CLI 中按 Tab 键开启思考模式进行使用。但需要注意的是,思考模式未充分适配 Cline、RooCode 等使用非标准工具调用的组件,官方建议用户在使用此类组件时继续使用非思考模式。


技术报告:


https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf


DeepSeek V3.2 开源地址:


DeepSeek-V3.2


HuggingFace:


https://huggingface.co/deepseek-ai/DeepSeek-V3.2


ModelScope:


https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2


DeepSeek-V3.2-Speciale


HuggingFace:


https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale


ModelScope:


https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale


(@IT 之家)


2、Microsoft 研究揭示:空间音频可将 AI 同声传译理解度翻倍



Microsoft 的一项最新研究指出,在 AI 实时语音翻译中,使用「空间音频」(Spatial Audio)技术,即将翻译语音与发言者在屏幕上的位置相匹配,可将听众的理解度提升一倍以上。这一发现为各大视频会议平台提供了一个技术上可行且效果显著的优化方向,有望极大改善跨语言协作的沟通体验。


  • 技术突破:理解度翻倍,定位更清晰

  • 研究表明,当翻译语音来自与发言者屏幕位置匹配的左/右声道时,听众正确回答理解性问题的几率是传统(非空间)音频的两倍以上。该技术在多人快速轮流发言时效果尤其显著,能有效帮助用户辨别「谁说了什么」。

  • 体验对比:空间音频完胜单耳收听

  • 与会者普遍认为「空间音频」模式「更容易理解」且「能清晰分辨发言者」。与之形成鲜明对比的是「单耳翻译」(Monaural)模式,它产生了最低的理解度得分,并被用户评价为「令人困惑」和「容易疲劳」。

  • 最佳实践:保留音色,平衡音量

  • 研究还发现两个关键的 UX 细节:1)保留不同发言者独特的声音音色有助于区分人物;2)调低而非完全静音原始语音,可以在减少干扰的同时,保留发言者的身份线索,从而创造最佳体验。

  • 平台建议:技术可行且影响巨大

  • 研究人员建议,会议平台应将翻译音频与发言者的屏幕位置对齐,并提供一个「原始语音 ↔ 翻译语音」的平衡滑块供用户调节。鉴于大多数现代耳机和设备已支持「空间音频」,这一改进在技术上是完全可行的。


论文地址:


https://arxiv.org/pdf/2511.09525


( @Slator)


3、ElevenLabs 进军韩国,打造亚洲语音 AI 中心



英国人工智能音频公司 ElevenLabs 正式宣布进军韩国市场,并计划在韩国建立其亚洲语音 AI 中心。该公司将推出本地化的韩语语音模型,并提供名人语音授权,以推动 K-content(韩流内容)在全球的传播。


语音 AI 技术: ElevenLabs 拥有先进的基于 AI 的 Text-to-Speech(TTS)技术,能够将文本实时转化为人类语音,并支持语音克隆、AI 配音和音效生成。


韩语本地化: 为进军韩国市场,ElevenLabs 投入大量资源,组建了专门团队并聘请专家,开发了能够准确捕捉和渲染韩语特有发音、语调和情感的模型。


K-content 全球化: ElevenLabs 的「Eleven v3」模型支持超过 70 种语言,能够完美还原原始情感和细微差别,旨在帮助克服 K-content(如 K-pop 和 K-drama)的语言障碍,并计划与韩国名人合作推出 AI 配音产品。


企业级应用: 该技术已获得 5000 万月活跃用户,75% 的 Fortune 500 公司是其客户,并在韩国吸引了 Naver、LG Uplus、Krafton Inc。 等领先企业使用。Nvidia、Deutsche Telekom 等公司也已投资 ElevenLabs。


亚洲桥头堡: ElevenLabs 选择韩国作为其进入亚洲市场的关键桥头堡,看好韩国快速增长的 AI 市场、对创新的快速接纳能力以及全球领先的内容影响力。


ElevenLabs 已在韩国设立了第六个办事处,并立即开始本地化韩语语音模型的开发和应用。公司计划将该技术应用于韩国的内容和游戏产业,并改进客户服务中心的 AI 体验。


(@CHOSUNBIZ)

02 有亮点的产品

1、豆包手机助手发布技术预览版,首款工程机亮相,现已售罄


昨天,豆包宣布其全新手机 AI 助手「豆包手机助手」以技术预览版的形式正式亮相。


据悉,字节跳动与努比亚为这款工程机的首销备货量为 3 万台。**目前,购买页面显示「已售罄」,购买需预约等待下次开售。


官方强调,该机型仅为技术预览用途,并不承诺功能的成熟度,普通消费者需谨慎选择。**值得注意的是,豆包官方还明确表示不打算做手机。**这款工程样机的具体配置如下: 配备高通骁龙 8 至尊版处理器;但是搭载 6.78 英寸 1264 × 2800 LTPO 屏幕;后置三颗 50MP 摄像头,涵盖主摄、超广角与长焦,均支持光学防抖;前置具备自动对焦功能;提供 16GB + 512GB 存储组合; 电池容量为 6000mAh,支持 90W 有线快充、15W 无线充电及 5W 反向充电;机身重量约 212g,支持超声波屏下指纹、NFC、红外、USB 3.2Gen1,并配备 5 麦克风与双扬声器。


上述消息公布后,中兴通讯股价昨天上午强势涨停,报 46.30 元,成交金额超 139 亿,封单金额超 40 亿元,其 H 股也涨超 11%。


( @APPSO)


2、可灵 AI 推出全球首个统一多模态视频引擎 O1



昨天晚间,可灵视频正式上线 O1 模型,宣称这是全球首个统一多模态视频大模型,定位为全能创作引擎,旨在通过单一输入框实现跨模态任务的无缝融合,打破传统视频生成的功能割裂问题。


据介绍,该模型引入 MVL(多模态视觉语言)交互架构,并结合 Chain-of-thought 技术,赋予系统更强的常识推理与事件推演能力。


官方表示,O1 模型能够在同一界面下处理照片、视频与文字等多模态输入,用户仅需通过简单对话即可完成复杂的创作编辑。


在功能层面,O1 模型支持多主体视角构建与自由组合,确保视频主体在不同镜头间保持一致性与稳定性。


同时,用户可灵活组合多种技能,一次生成多样化创意变化,并可自由设定 3 至 10 秒的生成时长,以掌控叙事节奏。


此外,可灵 AI 宣布自 12 月 1 日起至 12 月 14 日,将举办为期 5 天的「全能灵感周」,并推出会员年卡限时 6.6 折优惠活动,以吸引更多创作者体验该新模型。


( @APPSO)


3、米哈游联合创始推出「猫猫」互动娱乐 AI 模型



据 36 氪报道,米哈游联合创始人蔡浩宇在美国创立的 AI 公司 Anuttacon 近日上线了一款全新 AI 聊天大模型「AnuNeko」。


该产品以黑猫为默认形象,强调个性化与互动性,区别于传统的工具型 AI,更像是具备情绪与独立思考的「伙伴」。


「AnuNeko」的注册商标已于 2025 年 9 月 29 日提交美国 USPTO,涵盖软件、AI 角色与娱乐等多个领域。用户可选择两种不同风格的虚拟猫角色:回答犀利的「异国短毛猫」Exotic Shorthair 与更温和的「橘猫」Orange Cat。



报道认为,蔡浩宇的目标并非仅限于推出一款聊天机器人,而是借此探索 AI 在游戏生态中的应用。


在今年 8 月,Anuttacon 曾发布实验性 AI 游戏《群星低语》,玩家通过与 AI 角色对话推动剧情发展,体现了高自由度与 AI 自主性。此次「AnuNeko」的上线,或许是进一步测试 AI 在互动娱乐中的潜力。


在全球范围内,Google、育碧、字节跳动等企业也在布局 AI + 游戏:


  • Google DeepMind 推出的 SIMA 2 能在 3D 虚拟世界中自主学习与推理;

  • 字节的「Lumine」在《原神》中展现出跨场景泛化能力;

  • 育碧的 NEO NPCs 则已能实时分析玩家语音并制定策略。这些案例显示,AI 正逐步成为游戏产业的核心驱动力。


报道指出,与传统强调执行力的智能体不同,Anuttacon 的策略是让 AI 更「像人」,具备情绪与个性。这一方向或许能为未来互动娱乐带来新的突破:真正吸引玩家的并非完美答案,而是充满生命力的对话与陪伴。


https://anuneko.com


( @APPSO)

03 有态度的观点

1、马斯克最新预言:AI 可在三年内终结美国「债务危机」


12 月 1 日消息,自 2022 年 ChatGPT 问世后,AI 迅速被视为医疗、农业、能源等各领域的万能工具。不过马斯克的看法却更进一步,他认为 AI 与机器人技术才是解决美国债务危机的关键。在日前播出的一档播客节目中,马斯克表示:「美国债务问题只有一个出口,那就是 AI。」


他补充道:「摆脱美国日益加深的财政漏洞的唯一途径是由 AI 和机器人驱动的生产力提高。这几乎是解决美国债务危机的唯一办法,但这可能会导致严重的通货紧缩。」美国财政部数据显示,截至 11 月 26 日,美国国债已经达到 38.34 万亿美元,是十年前的两倍多。


马斯克进一步指出,AI 未将生产力提高到足以推动经济产出增速超过通货膨胀的程度,但这种情况即将改变。他补充称:「估计三年或更短的时间内,商品和服务产出将超过通货膨胀率。」


(@雷锋网 、@快科技)

04 Real-Time AI Demo

1、在 Mac 上离线运行 Qwen3omni-30b,实现语音对话,延迟 3~5 秒


来自 X 上的开发者 ZachBladi(@hellopanghe):


隆重推出 Joi:一款专为 Mac 设计的原生应用,提供端到端的音频聊天体验,一切运行在本地!🍎🎙


在 M3 Max (36GB) 上运行 Qwen3omni-30b-a3b-instruct (4-bit):⚡️ 「思考」速度:约 30 token/秒 🔊 首音频响应时间:3-5 秒


私密、沉浸、无审查。


https://github.com/hellopahe/joi


( @hellopanghe@X)

05 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、 活动推荐:AI+3D 场景合作交流会,北京,12 月 4 日





阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



作者提示: 个人观点,仅供参考

用户头像

还未添加个人签名 2021-02-05 加入

RTE 开发者社区聚焦实时互动与对话式 AI,提供技术分享、创新项目、活动直播与播客;服务 Voice Agent、Real-Time AI 的开发者与创业者。

评论

发布
暂无评论
米哈游联创推出可对话「猫猫」AI,具备情绪与独立思考;微软研究发现空间音频可将 AI 同传理解度翻倍丨日报_RTE开发者社区_InfoQ写作社区