写点什么

通义发布语音模型 MinMo:全双工、多口音;MiniCPM-o :端侧 GPT-4o 级视觉、语音、多模态实时流式大模型

作者:声网
  • 2025-01-15
    四川
  • 本文字数:5813 字

    阅读完需:约 19 分钟

通义发布语音模型 MinMo:全双工、多口音;MiniCPM-o :端侧 GPT-4o 级视觉、语音、多模态实时流式大模型


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@qqq,@鲍勃

01 有话题的技术

1、MiniCPM-o :端侧可用的 GPT-4o 级视觉、语音、多模态实时流式大模型


MiniCPM-o 是从 MiniCPM-V 升级的最新端侧多模态大模型系列。该系列模型能够以端到端的方式,接受图像、视频、文本、音频作为输入,生成高质量文本和输出语音。自 2024 年 2 月以来,开发团队以实现高性能和高效部署为目标,发布了 6 个版本的模型。


目前系列中最值得关注的模型包括:


MiniCPM-o 2.6:MiniCPM-o 系列最新、性能最佳的模型。总参数量 8B,视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中,MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度,MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。


MiniCPM-V 2.6:MiniCPM-V 系列中性能最佳的模型。总参数量 8B,单图、多图和视频理解性能超越了 GPT-4V。它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等的单图理解表现,并成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。(@ OpenBMB@X)


2、8B 多模态语音大模型 MinMo,全双工、强情感、多口音「声情并茂 · 入戏走心」


阿里通义实验室最新的一款多模态模型:MinMo。它主打「可无缝语音交互」,在语音对话场景中,用起来更自然、更贴近人类的说话方式,还能支持不同的语气或方言。当用英语与 MinMo 聊天,讨论电影时:全双工语音交互意味着用户和系统同时说话也不会乱,MinMo 可以在 100 毫秒左右将语音转成文本,并在大约 600 毫秒的理论延迟或实际约 800 毫秒的条件下,完成双向交流。


换句话说,问一句未完,MinMo 已经在分析并给出反馈,过程几乎没有停顿。更有趣的是,它对语音生成也进行了大幅升级。用户可以指定情感、方言、说话风格,甚至是模仿某人的声音。与 MinMo 用中文聊天,同时控制 MinMo 的口音(四川话、粤语等)在对话中:用中文与 MinMo 聊天,指导 MinMo 进行情感互动和角色扮演:这种多样化的可控生成,让它在语音对话、多语言识别、多语言翻译、情感识别、说话人分析、音频事件分析等任务上表现不错。


官方还透露,他们有 140 万小时的语音数据训练,模型大约有 80 亿参数,但依然能保持原本文本 LLM 的理解能力。


目前看来,MinMo 专注的仍是「无缝语音聊天」,让人机对话像真人交流一样自然顺畅。与此同时,它也保有对指令的良好跟随能力:可以基于文本或者语音的提示,实现中英文或方言的切换,情绪、声线的选择与模拟。对那些想快速原型或做智能客服、语音助理的开发者而言,这似乎是个值得追踪的进展。在整体趋势上,大模型们正竞争着给用户带来「更真实的对话体验」。(@AI 进修生)


3、英伟达开源图像生成模型 Sana ,1 秒生图、支持中英文和 emoji



近日,英伟达开源了一款名为 Sana 的图像生成模型,这一模型仅有 0.6 亿个参数,极大降低了运行门槛。


据了解,Sana 能够生成 4096×4096 分辨率的图像,并且可以在 16GB 的显卡上运行,不到 1 秒的时间内生成 1024×1024 分辨率的高质量图片,这一速度在同类模型中表现突出。


研究团队引入了一种深度压缩自编码器(DC-AE),相比于传统的自编码器,Sana 的压缩比高达 32 倍,大大减少了潜在标记的数量,这对于生成超高分辨率图像至关重要。其次,Sana 采用了线性扩散变换器(DiT),用线性注意力取代了传统的二次注意力,从而将复杂度降低到 O (N),并通过 3×3 深度卷积提升了局部信息的捕捉能力。这样的设计使得 Sana 在生成 4K 图像时延迟提高了 1.7 倍。


在文本编码方面,Sana 选择了小型的解码器专用大语言模型 Gemma,取代了传统的 T5 模型。Gemma 在理解和执行复杂指令方面表现更为出色,增强了图像与文本之间的对齐能力。此外,Sana 还优化了训练和推理策略,通过自动标记和选择高 CLIP 评分的描述,提升了文本与图像的一致性。新提出的 Flow-DPM-Solver 算法将推理步骤减少到了 14-20 步,显著提高了性能。


综合性能方面,Sana 在多个先进的文本到图像扩散模型中表现优异。在 512×512 分辨率下,Sana-0.6 的吞吐量是 PixArt-Σ 的 5 倍,并且在图像生成质量方面表现出色。而在 1024×1024 分辨率下,Sana-0.6B 在小于 3 亿参数的模型中也有着显著的优势。


Sana-0.6B 不仅性能强劲,还可以在 16GB 的笔记本 GPU 上快速生成图像,助力内容创作者高效地实现创作目标。据称,Sana0.6B 性能上和 Flux-12B 也具备竞争力,参数量只有其 1/20,速度却是整整快 100 倍。


有趣的是,Sana 提示词支持英文、中文和 emoji。用户可以输入中文诗句,生成与之相关的艺术图像。此外,Sana 还具有一定的安全性,当用户输入不当词汇时,系统会自动用红心图案❤️替代,从而避免不适内容的生成。


值得一提的是,Sana 已获得官方对 ComfyUI 的支持,并配备了 Lora 训练工具。(@ AIbase 基地)


4、月之暗面海外产品负责人的 AI Coding 项目被投资人抢爆了,新一轮估值 8000 万美元



(图片来源:月之暗面)


根据蓝鲸新闻报道,由前月之暗面海外产品 Noisee 创始人明超平发起的 AI Coding 项目「新言意码」已完成两轮融资,目前公司估值已达到 8000 万美元。此次融资吸引了包括五源资本、高榕资本、真格基金、高瓴创投和 IDG 资本等在内的多家顶级投资机构。


高榕资本、FunPlus(游戏公司趣加)、五源资本和真格基金为新言意码第一轮融资的投资方。目前,公司主要与前月之暗面的股东进行沟通,尚未广泛接触其他潜在投资者。


新言意码定位为 AI coding 应用,瞄准类似于美国智能代码生成产品 Cursor 的市场,而 Cursor 当前估值已达 25 亿美元。国内 AI coding 赛道同样活跃,已有如 aiXcoder、AIGCode 和 Babel 等多家公司浮现,进一步推动该领域的发展。


此前,月之暗面曾曝出多位出海产品负责人离职创业,并在 9 月停更了两款出海 to C 产品 Ohai 和 Noisee,转而专注于 Kimi 产品的开发。此举不仅是战略收缩,亦体现了月之暗面对产品聚焦的决心。随着 Noisee 的部分功能迁移至 Kimi,月之暗面显然在为多模态产品的未来布局。


这并不是第一次月之暗面的产品负责人离职。据公开信息显示,月之暗面大模型产品负责人王冠已于年初创办 ONE2X。创业方向为 AI 视频,已经获得了顶级机构的天使轮投资。


前 Ohai 产品负责人也于近期离职创业。Ohai 是月之暗面对标 Character.ai 的情感陪伴类产品,24 年 2 月在海外上线。(@ Z Finance )

02 有亮点的产品

1、Level AI:突破了传统关键词匹配的局限,实现了对客服对话的深度理解。



Level AI 将先进的 AI 技术与实际的业务场景紧密结合。其核心产品建立在语义智能的基础之上,突破了传统关键词匹配的局限,实现了对客服对话的深度理解。


产品亮点: 实时理解客户意图,实现自然交互和准确响应


差异化 1: 语义智能(semantic intelligence)


Level AI 采用更深层的语义智能(semantic intelligence)方案,能够真正理解对话的上下文和意图。同时,Level AI 的场景管理功能提供了一组预构建的场景,同时允许用户创建特定于业务需求的自定义场景。


差异化 2: 动态调整内容(Dynamic Content Adaptation)


动态调整内容是一种先进的智能交互系统功能,它通过持续监控和分析对话流程,实时调整回应的专业度和表达方式。这种系统能够精准识别用户的专业水平和需求特点,并据此提供相应的服务内容。


在技术支持中,系统能根据用户的表达方式调整解决方案:面对普通用户报告「网络连不上」时,提供简单的重启步骤;而当技术用户提到「DNS 解析失败」时,则直接给出专业的网络诊断方案。


在产品咨询时,系统会根据用户特征调整介绍重点:向普通消费者重点展示手机的外观和易用性,而对专业用户则详细说明技术参数;对摄影爱好者着重介绍相机功能,对游戏玩家则侧重性能分析。


在客服场景中,系统能识别用户情绪并相应调整:对情绪激动的客户,采用简洁安抚的方式快速处理;对理性客户,则提供完整的政策解释和流程说明。


差异化 3: 客服质量管理(Quality control)


Level AI 构建了涵盖服务指标、专业度评估和情感分析的综合评估体系,并通过预警机制帮助企业及时发现潜在问题,同时系统的模块化设计既确保了部署灵活性,也强化了数据安全和隐私保护,为企业客服智能化转型提供了可靠的技术支持。(@ Z Potentials )


2、ChatGPT 新功能:Tasks 可设未来任务提醒



今天,OpenAI 正在为 ChatGPT 推出一项名为「Tasks」的新测试功能,该功能允许用户安排未来的行动和提醒事项。


比如你想要在早上 7 点得到每日天气预报,或者需要一个关于护照到期的提醒,又或者只是在睡前给孩子讲一个敲敲门的笑话…… 现在,ChatGPT 可以通过安排一次性或重复性任务来处理所有这些事务。


「在聊天界面或者通过个人资料菜单下的 Task 页面,你可以安排希望 ChatGPT 执行的任务,比如每周发送全球新闻简报,获取每天个性化的 15 分钟锻炼计划,或者为将来需要做的事情设置提醒。」


这项功能从今天开始向 Plus、Team 和 Pro 订阅者推出,旨在使聊天机器人更接近于传统的数字助手,你可以把它想象成拥有 ChatGPT 更高级语言能力的谷歌助手或 Siri。该功能同时支持了网页端和 App 端。(@36 氪)


3、MiniMax 发布 MiniMax-01 系列模型,强化超长文本处理能力



MiniMax 近日宣布推出并开源其 MiniMax-01 系列模型。这一系列模型专为处理超长文本上下文及提升 AI 代理开发而设计。


MiniMax-Text-01 是该系列中的一款重要模型,其上下文窗口可支持高达 400 万个标记(tokens),这相当于一个小型图书馆的书籍量。在大型语言模型(LLM)中,上下文窗口是指模型在一次输入/输出交换中能处理的信息量,其中单词和概念被表示为数值标记,这是 LLM 对其训练数据的内部数学抽象。


此前,谷歌的 Gemini 1.5 Pro 模型以 200 万个标记的上下文窗口领先,而 MiniMax-Text-01 则将此容量翻倍。MiniMax 表示,MiniMax-01 能有效处理高达 400 万个标记,是其他主流模型容量的 20 至 32 倍,预计能支持未来一年内代理相关应用的激增,因为这些应用越来越需要扩展上下文处理能力和持续内存。


目前,这些模型已在 Hugging Face 和 GitHub 上以 MiniMax 自定义许可的形式提供下载,用户可以直接在 Hailuo AI Chat(ChatGPT、Gemini、Claude 的竞争对手)上试用,也可通过 MiniMax 的应用程序编程接口(API)接入,供第三方开发者将其独特应用与这些模型链接。


MiniMax 为文本和多模态处理提供 API,价格具有竞争力:每 100 万个输入标记 0.2 美元,每 100 万个输出标记 1.1 美元。相比之下,OpenAI 的 GPT-4o 通过其 API 每 100 万个输入标记收费 2.5 美元,价格高出 12.5 倍。


此外,MiniMax 集成了包含 32 个专家的混合专家(MoE)框架,以优化可扩展性。这种设计在保持关键基准测试上的竞争性能的同时,平衡了计算和内存效率。


MiniMax-01 的核心是闪电注意力(Lightning Attention)机制,这是一种创新的变压器架构替代方案。该设计显著降低了计算复杂性,模型包含 456 亿个参数,每次推理激活 459 亿个。闪电注意力结合了线性和传统 SoftMax 层,为长输入实现了近线性复杂性。


MiniMax 重建了其训练和推理框架,以支持闪电注意力架构,关键改进包括:MoE 全对全通信优化,减少了 GPU 间通信开销;变长环形注意力,最小化了长序列处理的计算浪费;高效内核实现,定制的 CUDA 内核提高了闪电注意力的性能。这些进步使 MiniMax-01 模型在实际应用中更具可行性,同时保持了成本效益。


在主流文本和多模态基准测试中,MiniMax-01 与 GPT-4 和 Claude-3.5 等顶级模型相媲美,特别是在长上下文评估中表现出色。MiniMax-Text-01 在 400 万个标记上下文的「针入草堆」任务中实现了 100%的准确率,且随着输入长度的增加,性能下降微乎其微。(@ ATYUN)

03 有态度的观点

1、独角兽 Replit CEO 谈从「人-机交互」到「AI-机交互」:重要的是保持适应能力和韧性



(图片来源:Replit 官网)


Amjad Masad 表示,一个非常重要的技能是「生成力」,也就是快速生成新想法的能力。这可能比较难培养,但非常值得努力。「可以把它想象成一条流水线:你有想法,然后需要将这些想法初步生产出来,最后再让其他人使用或与你协作。」


他有一个观点称之为「Amjad Law」,学习编程的回报每六个月就会翻倍。「学习一点点编程技能,比如如何与 AI 交互、如何阅读代码并调试,会带来越来越大的收益。因为你能够创造更多东西,能够更轻松地开发出更完整的产品。」


「我们的工作方式将迅速发生变化,重要的是保持对这种变化的适应能力和韧性。现在有件事我觉得很难是做 roadmaps,尤其是涉及到 AI 相关的任何事情。实际上,AI 能影响到的任何领域都需要快速反应。」(@ Z Potentials)



更多 Voice Agent 学习笔记:


对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点


这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势


语音即入口:AI 语音交互如何重塑下一代智能应用


Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……


帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记


市场规模超 60 亿美元,语音如何改变对话式 AI?


2024 语音模型前沿研究整理,Voice Agent 开发者必读


从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户


WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?


人类级别语音 AI 路线图丨 Voice Agent 学习笔记


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
通义发布语音模型 MinMo:全双工、多口音;MiniCPM-o :端侧 GPT-4o 级视觉、语音、多模态实时流式大模型_声网_InfoQ写作社区