MiniMax 将完成近 3 亿美元融资,估值超 40 亿美元;Grok 上线动漫 AI 伴侣功能丨日报


开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、谷歌 Gemini 嵌入模型登顶 MTEB 排行榜,性能超越 OpenAI

2023 年 7 月 15 日凌晨,谷歌正式推出首个 Gemini 嵌入模型,该模型在多文本嵌入基准测试平台(MTEB)上以 68.37 的高分位列第一,得分超过 OpenAI 的 58.93 分。在双语挖掘、分类、聚类、指令检索、多标签分类、配对分类、重排、检索、语义文本相似性等测试中,全部都非常出色成为目前最强嵌入模型。
Gemini 嵌入模型的使用成本仅为每 100 万 token 0.15 美元。
测试结果显示,Gemini 嵌入模型在双语挖掘、分类、聚类、指令检索、多标签分类、配对分类、重排、检索及语义文本相似性等任务中表现优异,成为当前最强的嵌入模型。其多语言能力使其在全球范围内具有广泛的应用前景,尤其在非英语母语用户群体中具备显著优势。
Gemini 嵌入模型采用双向 Transformer 编码器架构,保留了 Gemini 模型的双向注意力机制,充分发挥其预训练的语言理解能力。在 32 层 Transformer 基础上,模型新增池化层以聚合输入序列中的每个 token 嵌入,生成单一嵌入向量。采用均值池化策略,提升了模型的适应性。
在训练过程中,Gemini 嵌入模型采取多阶段训练策略,分为预微调和精调两个阶段。预微调阶段使用大规模 Web 语料库进行训练,目标是将参数从自回归生成任务调整到编码任务。精调阶段则针对特定任务数据进行精细化训练,确保模型在检索、分类、聚类等任务中的高效表现。
为提升数据质量,研究团队设计了合成数据生成策略,并利用 Gemini 对训练数据进行过滤,去除低质量样本,确保模型训练的有效性。
体验地址:
https://aistudio.google.com/prompts/new_chat(@那代码有毒、@AIGC 开放社区)
2、亚马逊发布 AI 代码编辑器 Kiro,由 Claude 提供支持
AWS 正式推出一款 AI 驱动的代码编辑器——Kiro。目前官网已开放免费下载,支持 macOS、Windows 和 Linux,用户可以免费体验,每月上限 50 次 AI 交互。
在 Kiro 中,开发者只需写一句需求,AI 就能生成用户故事、技术方案和任务拆分表,写完代码还能自动补上测试脚本和设计文档。更重要的是,它会在用户保存或提交时自动运行测试或安全扫描。
这背后的模型是 Claude,默认提供 Claude 3.5 和 Claude 4.0,也支持未来接入更多模型。
这个时间点推出 Kiro,也不是巧合。AI 开发工具的竞争已经很激烈。Cursor 的年收入被传已突破 5 亿美元,Windsurf 在被谷歌部分「反向收购」前估值也已经超过 30 亿美元。AWS 明确表示,它不是做个工具补代码,而是希望帮团队从「想到」到「做到」,从原型到产品,少走弯路。
Kiro 的核心是:specs 和 hooks。
Specs 是一套围绕功能、设计、测试的文档集合。用户每次打算重构、设计新功能或者交付时,Kiro 会自动帮用户生成这些规范。
Hooks 是触发器。比如用户保存代码、创建新文件、或者准备提交时,Kiro 会自动触发相应任务,比如生成测试、更新文档或者扫描安全问题。
Kiro 会把工作拆分成小任务,还会按依赖顺序排序,每一项都和需求文档关联起来,确保不遗漏。每个任务都会包括:单元测试、集成测试、加载状态处理、移动端适配、可访问性设计等等。
除了 specs 和 hooks,Kiro 也具备一个成熟 AI 编辑器应有的能力。支持多模型接入协议(MCP)、可以定制 AI 行为规则、有「上下文感知」的聊天式开发体验,也兼容 VS Code 的配置和插件。
体验网址:https://kiro.dev/(@AI 星球视界)
02 有亮点的产品
1、Grok 上线动漫 AI 伴侣功能
7 月 15 日消息,马斯克于当地时间周一宣布,Grok 付费订阅用户现可试用 AI 聊天机器人新版「虚拟伙伴」(Companions)功能,但也有部分免费用户称其亦可访问该功能。
Grok 首批上线的虚拟形象包括动漫角色 Ani 和卡通熊猫 Rudy,其中后者还支持「Bad Rudy」模式。据 TestingCatalog 披露,Ani 还设有「NSFW 模式」,该模式下角色将身着内衣,更符合二次元玩家的喜好,在 AI 行业中遥遥领先。
马斯克称此次为「软发布」,因为当前用户需进入设置界面手动开启 AI 伴侣功能,「我们将在几天内简化开启流程」。
除已公布角色之外,用户发现另一款名为「Chad」的角色正在开发中。Grok 现有语音聊天模式已支持 NSFW 内容开关,用户可与此前无实体形象的 Grok 进行对话。
相关链接:https://techcrunch.com/2025/07/14/elon-musks-grok-is-making-ai-companions-including-a-goth-anime-girl/ (@时代 Java)
2、Grok 网页语音功能已开始向部分用户推送,支持基于网页内容交互
Grok 网页语音功能现已开始向部分用户推送。在此前的公开新闻中提到,Grok 网页语音功能将随 Grok 4 一同发布。用户在使用该功能时,Grok 会在回复的同时显示相关的 X 帖子,方便用户阅读。
该功能提供多种语音选项,包括 Ara、Rex、Eve、Sal 和 Gork,并支持用户自定义个性类型。
此外,用户还可以将浏览器标签页、窗口甚至整个屏幕内容分享给 Grok,并基于网页内容进行提问。
抢先体验链接:https://grok.com/(@blankspeaker@X)
3、MiniMax 将完成近 3 亿美元融资,估值超 40 亿美元
据晚点获悉,大模型公司 MiniMax 近 3 亿美元的新一轮融资已接近完成,投后估值超过 40 亿美元(约 300 亿元人民币)。结合公开信息,目前国内达到这一估值的大模型公司有 MiniMax 和智谱。
本轮引入了具有标志性意义的新股东 —— 上海国资。这是 MiniMax 首次获得拥有国资背景的资方参投。除大型国资平台外,本轮出资方还包括部分上市公司与交叉基金。此轮融资完成后,MiniMax 成为国内仅有的两家估值达到 300 亿元人民币的大模型公司之一。
据了解,MiniMax 曾于去年年底完成一轮估值 30 亿美元的融资。彭博社曾在今年 6 月报道称,MiniMax 正在筹备赴港上市。
另外,同在 6 月,MiniMax 发起为期一周的「技术发布周」,集中发布了一系列能力成果,如开源大规模混合架构模型 MiniMax-M1、支持原生 1080p 的视频模型 Hailuo‑02、通用智能体 MiniMax Agent 等等。(@APPSO、@秉乾而行)
4、美图发布影像 AI Agent,为用户提供一站式影像处理体验
7 月 14 日,美图公司正式公布旗下影像 AI Agent「RoboNeo」,并号称「一句话搞定影像生产力」。该产品集成了图片精修、品牌设计和网页制作等多项功能,整体形态更接近「美图全家桶」,为用户提供一站式影像处理体验。
据悉,RoboNeo 专注于影像内容生成,支持手机、电脑。官方表示,在 RoboNeo 中能实现一句话商业级精修,如面部修复、人物体态处理、图片细节修改、滤镜添加等。
RoboNeo 还能够进行品牌设计,支持分析用户需求、设计思路规划,能够进行设计延伸生成,并且支持生成品牌样机、门店设计,甚至还支持电商物料内容生成。RoboNeo 还支持效果预览,能够快速给出家装预览、车贴预览、T 恤图案预览等场景应用。
值得一提的是,RoboNeo 还支持营销视频生成,基于文字、图片进行视频内容生成;另外还支持网页设计生成,能够同步交付设计、代码、部署。
RoboNeo 面向电商运营推出了一站式物料生成能力,涵盖平面海报、动态视频、360 度运镜视频等多种营销素材。此外,该功能支持图层拆分、动画调节,适配主流电商平台对静态或动态素材的多元需求。
目前,用户可通过手机应用商店搜索「RoboNeo」或访问 RoboNeo.com 直接体验服务。(@智东西、@APPSO)
5、Gemini AI 现支持将照片转换为带声音的视频
Google Gemini 应用刚刚推出了一项新功能,用户现在可以将静态照片转换为带有声音的视频。这项全新的照片转视频功能由谷歌的 Veo 3 视频模型提供支持,可将参考图片转换为 8 秒的视频,并配有 AI 生成的音频,包括背景噪音、环境声响和语音等。
据谷歌介绍,目前 Gemini 的这一视频更新功能已向 「部分地区」 的 Google AI Ultra 和 Pro 订阅用户开放。该功能现在开始在网页端推出,并将逐步覆盖移动设备。
Gemini 用户可通过以下方式使用该功能:点击提示栏中的 「工具」 选项,选择 「视频」,然后上传照片,同时附上一段文字描述,说明希望照片以何种方式动起来。用户还可以添加音频描述,用于指定对话、音效和环境音 —— 谷歌表示,这些音频将 「与视觉画面完美同步」。生成的成品视频为 MP4 格式,分辨率为 720p,采用 16:9 的横屏比例。
报道链接:https://x.com/GeminiApp/status/1944879639677296652
相关链接:https://blog.google/products/gemini/photo-to-video
(@GeminiApp@X、@IEEE 电气电子工程师学会)
03 有态度的观点
1、贾樟柯:艺术劳作的过程是一种生理需要
据新浪电影消息,导演贾樟柯日前在「青葱青年影展大师班」谈及「AI 为何无法完全取代传统电影拍摄手法」,并分享了自己的想法。
「AI 未来可能性非常大,但无法取代传统电影的就是拍摄本身的游戏的快感。」贾樟柯表示,每一门艺术吸引人去从事,都有游戏感手工感,劳作的过程是一种生理需要,其他工作无法取代。「拍电影某种程度和过家家差不多,无中生有拍一段人生。」
同时,贾樟柯也分享了对现代电影行业的看法:
年轻导演是最敏感的群体,他们要寻找自己职业和生活的方向,他们缺少资源,也最能发现和感受社会存在的问题。
很多短剧,短剧的叙事效率很高,但是人的真实生活并不会时时刻刻处于戏剧性中,而是有很多闲散的时间。所以贾樟柯表示,自己的电影注重快与慢的结合。(@APPSO)
2、马斯克:5 年内,AI 的能力超越所有人的总和
昨天,博主 Haider 发文称「我们已经跨越了通用人工智能(AGI)的门槛,因此这一术语现在感觉毫无意义」,随后马斯克转发并回复表示,「AI 已经比大多数人类聪明得多」。
马斯克在文中称,现在的 AI 已经比很多人类聪明,只是还没有在任何方面超越任何一个人。但马斯克认为:在未来 2 年内,AI 将会比任何单一人类、在任何方面都更聪明,而 5 年左右的时间,AI 将会比所有人类加起来都还要聪明。
最后,马斯克还表示「关键是要确保 始终以 AI 追求真理为最高目标,哪怕前进道路上难免会出现一些曲折。」(@APPSO)

更多 Voice Agent 学习笔记:
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?
视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻
评论