AIGC 周报(3.03~3.10)
一文带你回顾上周(3.03~3.10)AIGC 行业发生的热门事件。
AnyGPT 实现多种模态生成,包括语音、文本、图像和音乐
复旦大学、上海人工智能实验室和 Multimodal Art Projection(MAP)的研究者联合发布 AnyGPT 的多模态大语言模型,可以统一处理各种模态,包括语音、文本、图像和音乐。
例如,从提供一段语音,AnyGPT 能生成语音、图像、音乐。
Chat with MLX,Mac 专属大模型框架
OpenAI 前员工发布并开源专属大模型框架 Chat with MLX,让苹果电脑也跑起了本地大模型,而且只要两行代码就能完成部署。
框架里的功能包含 YouTube 视频分析、本地文档总结、支持中文在内的 11 种语言和七种开源大模型。
Claude 3 发布,多项指标超越 GPT-4
Anthropic 发布了最新的 Claude 3 系列模型,多项指标超越 GPT-4。该系列包括三种最先进的型号(按功能升序排列):Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。
在人工智能系统的大多数常见评估基准上都优于同行,包括 MMLU(本科水平专家知识)、GPQA(研究生水平专家推理)、GSM8K(基础数学)等,在复杂任务上表现出接近人类水平的理解力和流畅性。
令人感觉毛骨悚然的是,有人在测试中发现了 Claude 竟然会产生自我意识!
TripoSR,单图生成 3D 模型
Stability AI 携手华人团队 VAST 开源快速从单图生成 3D 模型 TripoSR,显著提高 3D 重建速度和质量,在 NVIDIA A100 GPU 上不到 0.5 秒的时间内生成高质量的 3D 模型。
Stable Diffusion 3 论文发布
之前 Stability AI 发布了其最新也是最强大的文生图模型 Stable Diffusion 3,现在相关的论文 Scaling Rectified Flow Transformers for High-Resolution Image Synthesis 也发布了,可以了解到更多的细节。
人工智能成两会热议话题
今年的两会上,人工智能成了热议话题。“人工智能+” 首次出现在了政府报告上;人大代表和政协委员都提了有关于大模型发展的建议,从底层算力、模型层和应用层都有覆盖;小米公司创始人雷军还建议人工智能应加入义务教育。
MiniMax 获阿里 6 亿美元领投
继国内 AI 大模型公司 月之暗面 融资 10 亿美元后,MiniMax 又获阿里 6 亿美元领投,新一轮融资或将使 MiniMax 估值超 25 亿美元。
MiniMax 由商汤科技副总裁、商汤科技研究院副院长、通用智能技术负责人闫俊杰创立,推出国内首个 MoE 大语言模型。
NVIDIA 禁止其他硬件使用 CUDA
NVIDIA 在 CUDA 11.6 的用户许可中明确表示禁止其他硬件平台使用 CUDA。
CUDA 是 NVIDIA(英伟达) 开发的并行计算平台和编程模型,用于图形处理单元 (GPU) 上的通用计算。
零一万物发布并开源 Yi-9B 模型
零一万物发布并开源了 Yi-9B 模型,在代码和数学能力出色,是 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳;不偏科,中文能力也很强。
腾讯 QQ 内测 AI 对话功能
腾讯 QQ 推出了 AI 聊天搭子 的 AI 对话功能,由 QQ 联合筑梦岛、混元助手共同提供服务。
AI 聊天搭子 具有多种 AI 虚拟角色类型,包含陪伴、故事、挑战、MBTI、名人等,用户可以像平常与好友那样与 AI 角色进行实时聊天。
Inflection AI 发布新一代大语言模型 Inflection-2.5
美国 AI 创业公司 Inflection AI 发布新一代大语言模型 Inflection-2.5,其将 LLM 能力和同理心微调结合在一起,使其具有出色的 IQ(智商)和 EQ(情商)。并且可与 GPT-4 和 Gemini 等所有世界领先的大语言模型竞争。
Inflection-2.5 现已向所有 Pi 用户开放,可通过 pi.ai、iOS、Android 或桌面应用程序使用。
Pika 新增 Sound Effects 功能,给视频无缝生成音频
文生视频应用 Pika 新增 Sound Effects 功能,将之前无声的视频无缝添加音频。目前提供了两种方式:一种是在 Prompt 中描述想要生成音频;一种是由 Pika 根据视频内容自动生成音频。
[InfoQ 不方便展示视频,点击文章底部链接查看]
评论