通义发布语音模型 MinMo:全双工、多口音;MiniCPM-o :端侧 GPT-4o 级视觉、语音、多模态实时流式大模型
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 有话题的技术
1、MiniCPM-o :端侧可用的 GPT-4o 级视觉、语音、多模态实时流式大模型
MiniCPM-o 是从 MiniCPM-V 升级的最新端侧多模态大模型系列。该系列模型能够以端到端的方式,接受图像、视频、文本、音频作为输入,生成高质量文本和输出语音。自 2024 年 2 月以来,开发团队以实现高性能和高效部署为目标,发布了 6 个版本的模型。
目前系列中最值得关注的模型包括:
MiniCPM-o 2.6:MiniCPM-o 系列最新、性能最佳的模型。总参数量 8B,视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中,MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度,MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。
MiniCPM-V 2.6:MiniCPM-V 系列中性能最佳的模型。总参数量 8B,单图、多图和视频理解性能超越了 GPT-4V。它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等的单图理解表现,并成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。(@ OpenBMB@X)
2、8B 多模态语音大模型 MinMo,全双工、强情感、多口音「声情并茂 · 入戏走心」
阿里通义实验室最新的一款多模态模型:MinMo。它主打「可无缝语音交互」,在语音对话场景中,用起来更自然、更贴近人类的说话方式,还能支持不同的语气或方言。当用英语与 MinMo 聊天,讨论电影时:全双工语音交互意味着用户和系统同时说话也不会乱,MinMo 可以在 100 毫秒左右将语音转成文本,并在大约 600 毫秒的理论延迟或实际约 800 毫秒的条件下,完成双向交流。
换句话说,问一句未完,MinMo 已经在分析并给出反馈,过程几乎没有停顿。更有趣的是,它对语音生成也进行了大幅升级。用户可以指定情感、方言、说话风格,甚至是模仿某人的声音。与 MinMo 用中文聊天,同时控制 MinMo 的口音(四川话、粤语等)在对话中:用中文与 MinMo 聊天,指导 MinMo 进行情感互动和角色扮演:这种多样化的可控生成,让它在语音对话、多语言识别、多语言翻译、情感识别、说话人分析、音频事件分析等任务上表现不错。
官方还透露,他们有 140 万小时的语音数据训练,模型大约有 80 亿参数,但依然能保持原本文本 LLM 的理解能力。
目前看来,MinMo 专注的仍是「无缝语音聊天」,让人机对话像真人交流一样自然顺畅。与此同时,它也保有对指令的良好跟随能力:可以基于文本或者语音的提示,实现中英文或方言的切换,情绪、声线的选择与模拟。对那些想快速原型或做智能客服、语音助理的开发者而言,这似乎是个值得追踪的进展。在整体趋势上,大模型们正竞争着给用户带来「更真实的对话体验」。(@AI 进修生)
3、英伟达开源图像生成模型 Sana ,1 秒生图、支持中英文和 emoji
近日,英伟达开源了一款名为 Sana 的图像生成模型,这一模型仅有 0.6 亿个参数,极大降低了运行门槛。
据了解,Sana 能够生成 4096×4096 分辨率的图像,并且可以在 16GB 的显卡上运行,不到 1 秒的时间内生成 1024×1024 分辨率的高质量图片,这一速度在同类模型中表现突出。
研究团队引入了一种深度压缩自编码器(DC-AE),相比于传统的自编码器,Sana 的压缩比高达 32 倍,大大减少了潜在标记的数量,这对于生成超高分辨率图像至关重要。其次,Sana 采用了线性扩散变换器(DiT),用线性注意力取代了传统的二次注意力,从而将复杂度降低到 O (N),并通过 3×3 深度卷积提升了局部信息的捕捉能力。这样的设计使得 Sana 在生成 4K 图像时延迟提高了 1.7 倍。
在文本编码方面,Sana 选择了小型的解码器专用大语言模型 Gemma,取代了传统的 T5 模型。Gemma 在理解和执行复杂指令方面表现更为出色,增强了图像与文本之间的对齐能力。此外,Sana 还优化了训练和推理策略,通过自动标记和选择高 CLIP 评分的描述,提升了文本与图像的一致性。新提出的 Flow-DPM-Solver 算法将推理步骤减少到了 14-20 步,显著提高了性能。
综合性能方面,Sana 在多个先进的文本到图像扩散模型中表现优异。在 512×512 分辨率下,Sana-0.6 的吞吐量是 PixArt-Σ 的 5 倍,并且在图像生成质量方面表现出色。而在 1024×1024 分辨率下,Sana-0.6B 在小于 3 亿参数的模型中也有着显著的优势。
Sana-0.6B 不仅性能强劲,还可以在 16GB 的笔记本 GPU 上快速生成图像,助力内容创作者高效地实现创作目标。据称,Sana0.6B 性能上和 Flux-12B 也具备竞争力,参数量只有其 1/20,速度却是整整快 100 倍。
有趣的是,Sana 提示词支持英文、中文和 emoji。用户可以输入中文诗句,生成与之相关的艺术图像。此外,Sana 还具有一定的安全性,当用户输入不当词汇时,系统会自动用红心图案❤️替代,从而避免不适内容的生成。
值得一提的是,Sana 已获得官方对 ComfyUI 的支持,并配备了 Lora 训练工具。(@ AIbase 基地)
4、月之暗面海外产品负责人的 AI Coding 项目被投资人抢爆了,新一轮估值 8000 万美元
(图片来源:月之暗面)
根据蓝鲸新闻报道,由前月之暗面海外产品 Noisee 创始人明超平发起的 AI Coding 项目「新言意码」已完成两轮融资,目前公司估值已达到 8000 万美元。此次融资吸引了包括五源资本、高榕资本、真格基金、高瓴创投和 IDG 资本等在内的多家顶级投资机构。
高榕资本、FunPlus(游戏公司趣加)、五源资本和真格基金为新言意码第一轮融资的投资方。目前,公司主要与前月之暗面的股东进行沟通,尚未广泛接触其他潜在投资者。
新言意码定位为 AI coding 应用,瞄准类似于美国智能代码生成产品 Cursor 的市场,而 Cursor 当前估值已达 25 亿美元。国内 AI coding 赛道同样活跃,已有如 aiXcoder、AIGCode 和 Babel 等多家公司浮现,进一步推动该领域的发展。
此前,月之暗面曾曝出多位出海产品负责人离职创业,并在 9 月停更了两款出海 to C 产品 Ohai 和 Noisee,转而专注于 Kimi 产品的开发。此举不仅是战略收缩,亦体现了月之暗面对产品聚焦的决心。随着 Noisee 的部分功能迁移至 Kimi,月之暗面显然在为多模态产品的未来布局。
这并不是第一次月之暗面的产品负责人离职。据公开信息显示,月之暗面大模型产品负责人王冠已于年初创办 ONE2X。创业方向为 AI 视频,已经获得了顶级机构的天使轮投资。
前 Ohai 产品负责人也于近期离职创业。Ohai 是月之暗面对标 Character.ai 的情感陪伴类产品,24 年 2 月在海外上线。(@ Z Finance )
02 有亮点的产品
1、Level AI:突破了传统关键词匹配的局限,实现了对客服对话的深度理解。
Level AI 将先进的 AI 技术与实际的业务场景紧密结合。其核心产品建立在语义智能的基础之上,突破了传统关键词匹配的局限,实现了对客服对话的深度理解。
产品亮点: 实时理解客户意图,实现自然交互和准确响应
差异化 1: 语义智能(semantic intelligence)
Level AI 采用更深层的语义智能(semantic intelligence)方案,能够真正理解对话的上下文和意图。同时,Level AI 的场景管理功能提供了一组预构建的场景,同时允许用户创建特定于业务需求的自定义场景。
差异化 2: 动态调整内容(Dynamic Content Adaptation)
动态调整内容是一种先进的智能交互系统功能,它通过持续监控和分析对话流程,实时调整回应的专业度和表达方式。这种系统能够精准识别用户的专业水平和需求特点,并据此提供相应的服务内容。
在技术支持中,系统能根据用户的表达方式调整解决方案:面对普通用户报告「网络连不上」时,提供简单的重启步骤;而当技术用户提到「DNS 解析失败」时,则直接给出专业的网络诊断方案。
在产品咨询时,系统会根据用户特征调整介绍重点:向普通消费者重点展示手机的外观和易用性,而对专业用户则详细说明技术参数;对摄影爱好者着重介绍相机功能,对游戏玩家则侧重性能分析。
在客服场景中,系统能识别用户情绪并相应调整:对情绪激动的客户,采用简洁安抚的方式快速处理;对理性客户,则提供完整的政策解释和流程说明。
差异化 3: 客服质量管理(Quality control)
Level AI 构建了涵盖服务指标、专业度评估和情感分析的综合评估体系,并通过预警机制帮助企业及时发现潜在问题,同时系统的模块化设计既确保了部署灵活性,也强化了数据安全和隐私保护,为企业客服智能化转型提供了可靠的技术支持。(@ Z Potentials )
2、ChatGPT 新功能:Tasks 可设未来任务提醒
今天,OpenAI 正在为 ChatGPT 推出一项名为「Tasks」的新测试功能,该功能允许用户安排未来的行动和提醒事项。
比如你想要在早上 7 点得到每日天气预报,或者需要一个关于护照到期的提醒,又或者只是在睡前给孩子讲一个敲敲门的笑话…… 现在,ChatGPT 可以通过安排一次性或重复性任务来处理所有这些事务。
「在聊天界面或者通过个人资料菜单下的 Task 页面,你可以安排希望 ChatGPT 执行的任务,比如每周发送全球新闻简报,获取每天个性化的 15 分钟锻炼计划,或者为将来需要做的事情设置提醒。」
这项功能从今天开始向 Plus、Team 和 Pro 订阅者推出,旨在使聊天机器人更接近于传统的数字助手,你可以把它想象成拥有 ChatGPT 更高级语言能力的谷歌助手或 Siri。该功能同时支持了网页端和 App 端。(@36 氪)
3、MiniMax 发布 MiniMax-01 系列模型,强化超长文本处理能力
MiniMax 近日宣布推出并开源其 MiniMax-01 系列模型。这一系列模型专为处理超长文本上下文及提升 AI 代理开发而设计。
MiniMax-Text-01 是该系列中的一款重要模型,其上下文窗口可支持高达 400 万个标记(tokens),这相当于一个小型图书馆的书籍量。在大型语言模型(LLM)中,上下文窗口是指模型在一次输入/输出交换中能处理的信息量,其中单词和概念被表示为数值标记,这是 LLM 对其训练数据的内部数学抽象。
此前,谷歌的 Gemini 1.5 Pro 模型以 200 万个标记的上下文窗口领先,而 MiniMax-Text-01 则将此容量翻倍。MiniMax 表示,MiniMax-01 能有效处理高达 400 万个标记,是其他主流模型容量的 20 至 32 倍,预计能支持未来一年内代理相关应用的激增,因为这些应用越来越需要扩展上下文处理能力和持续内存。
目前,这些模型已在 Hugging Face 和 GitHub 上以 MiniMax 自定义许可的形式提供下载,用户可以直接在 Hailuo AI Chat(ChatGPT、Gemini、Claude 的竞争对手)上试用,也可通过 MiniMax 的应用程序编程接口(API)接入,供第三方开发者将其独特应用与这些模型链接。
MiniMax 为文本和多模态处理提供 API,价格具有竞争力:每 100 万个输入标记 0.2 美元,每 100 万个输出标记 1.1 美元。相比之下,OpenAI 的 GPT-4o 通过其 API 每 100 万个输入标记收费 2.5 美元,价格高出 12.5 倍。
此外,MiniMax 集成了包含 32 个专家的混合专家(MoE)框架,以优化可扩展性。这种设计在保持关键基准测试上的竞争性能的同时,平衡了计算和内存效率。
MiniMax-01 的核心是闪电注意力(Lightning Attention)机制,这是一种创新的变压器架构替代方案。该设计显著降低了计算复杂性,模型包含 456 亿个参数,每次推理激活 459 亿个。闪电注意力结合了线性和传统 SoftMax 层,为长输入实现了近线性复杂性。
MiniMax 重建了其训练和推理框架,以支持闪电注意力架构,关键改进包括:MoE 全对全通信优化,减少了 GPU 间通信开销;变长环形注意力,最小化了长序列处理的计算浪费;高效内核实现,定制的 CUDA 内核提高了闪电注意力的性能。这些进步使 MiniMax-01 模型在实际应用中更具可行性,同时保持了成本效益。
在主流文本和多模态基准测试中,MiniMax-01 与 GPT-4 和 Claude-3.5 等顶级模型相媲美,特别是在长上下文评估中表现出色。MiniMax-Text-01 在 400 万个标记上下文的「针入草堆」任务中实现了 100%的准确率,且随着输入长度的增加,性能下降微乎其微。(@ ATYUN)
03 有态度的观点
1、独角兽 Replit CEO 谈从「人-机交互」到「AI-机交互」:重要的是保持适应能力和韧性
(图片来源:Replit 官网)
Amjad Masad 表示,一个非常重要的技能是「生成力」,也就是快速生成新想法的能力。这可能比较难培养,但非常值得努力。「可以把它想象成一条流水线:你有想法,然后需要将这些想法初步生产出来,最后再让其他人使用或与你协作。」
他有一个观点称之为「Amjad Law」,学习编程的回报每六个月就会翻倍。「学习一点点编程技能,比如如何与 AI 交互、如何阅读代码并调试,会带来越来越大的收益。因为你能够创造更多东西,能够更轻松地开发出更完整的产品。」
「我们的工作方式将迅速发生变化,重要的是保持对这种变化的适应能力和韧性。现在有件事我觉得很难是做 roadmaps,尤其是涉及到 AI 相关的任何事情。实际上,AI 能影响到的任何领域都需要快速反应。」(@ Z Potentials)
更多 Voice Agent 学习笔记:
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
评论