AI 视界周刊第 1 期：最具性价比 GPT-4o mini 发布、大模型集体失智、语言模型安全漏洞

作者：战场小包

2024-07-22
湖北
本文字数：7947 字
阅读完需：约 26 分钟

AI视界周刊第 1 期：最具性价比 GPT-4o mini 发布、大模型集体失智、语言模型安全漏洞

AI 视界周刊由战场小包维护，每周一更新，包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块，后续板块划分和内容撰写在周刊迭代过程中持续优化，欢迎大家提出建议。

欢迎大家来到《AI 视界周刊第一期》，下面是本周的热点导图速报：

热点聚焦

最具性价比 GPT-4o mini 发布，取代 GPT-3.5 Turbo
2024 年 7 月 18 日，OpenAI 宣布发布 GPT-4o 的衍生版 GPT-4o mini，替代 GPT-3.5 Turbo。相较于即将退役的 3.5，GPT-4o mini 更小、性能更强，且价格更加实惠，便宜可达 60% 以上——每百万个输入 token 15 美分，每百万个输出 token 60 美分，MMLU 得分 82%。GPT-4o mini 版本将于本周四开始正式提供访问，企业用户从下周开始访问。
大模型集体失智，小学数字比较竟集体翻车
近期《歌手》第十期比赛中上了一个离谱的热搜，排名阶段孙楠和香缇莫分别的票为 13.8%和 13.11%，分列三四名，有网友提出质疑：13.11% 不应该大于 13.8% 吗？让人大跌眼镜的是，AI2 的研究员林禹臣向 GPT-4o 提出了这个问题，GPT-4o 也认为 13.11 更大，这一现象引起了社区的广泛讨论和尝试，几乎所有的 LLM 大模型都在类似的问题上翻车了。AI 模型在处理复杂问题的能力日益提升，但是在一些常识问题中还存在很大的优化空间，特别是数学问题，AI 模型可能会出现很多低级错误，下面有一些相关数学的测评
- 论文《GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers》使用 GSM-Plus 评估基准对 25 个 AI 模型进行数学评测，GPT-3.5 Turbo 勉强取得了及格的成绩。
- 通义千问、GPT-4o 等七款 AI 大模型“高考数学成绩”最高分仅取得 74 分
语言模型安全漏洞：时态转换轻易破解大模型防护
EPFL 机构的研究人员发现，通过将危险问题的请求改写成过去时态（中文语境同样有效），可以轻易绕过包括 GPT-4o 和 Llama 3 在内的大型语言模型的安全限制，使得这些模型泄露危险信息的成功率从 1% 飙升至 88%，暴露了当前 LLM 对齐技术如 SFT、RLHF、对抗训练的脆弱性。通过构建过去时态的提示词，可以实现对 LLM 模型的越狱，从而可以引导 LLM 进行有危害问题的回答，比如炸弹、违禁药品等。论文链接：https://arxiv.org/pdf/2407.11969
GraphRAG 爆火，引领生成式 AI 进入知识图谱时代
LLM 本质上并不具备真正的推理能力，更多是返回概率较大的回答，为了增强 LLM 的生成效果质量，检索增强式生成（RAG）被提出，RAG 基于向量相似性增加问题与答案间匹配的概率，但是 RAG 方案并没有构建起向量间的联系，在全面和综合理解方面表现不佳。微软开源的 GraphRAG 会利用 LLM 根据输入的文本库创建知识图谱，并将图谱与机器学习一同用于在查询时执行提示词的增强，通过知识图谱结合图机器学习，GraphRAG 极大增强 LLM 在处理私有数据时的性能，同时具备连点成线的跨大型数据集的复杂语义问题推理能力。项目地址：https://github.com/microsoft/graphrag (已达 12.1k stars)

应用破局

AI 视频生成领域发布多项新成果
达摩院发布一站式 AI 视频创作平台「寻光」，旨在重塑传统视频制作的整个流程，打造 AI 时代的全新视频工作流。寻光搭建了一站式 AI 视频创作平台，并首创基于图层的视频编辑，让用户实现对视频内容的精准控制，同时可以保持多个视频中角色和场景的一致性。体验链接：https://xunguang.damo-vision.com/
高效、连贯一致性文生视频模型 Snap Video 推出，该模型采用类似 Sora 的 Transfomer 架构，结合了时空压缩表示、全局联合时空建模以及自适应建模等功能，有效地提升生成的视频质量、视频动作一致性、复杂动作表现等方面。此外，Snap Video 还能根据文本提示对原始视频素材进行剪辑和合成，生成特殊需求的定制化视频，进一步推进了视频领域的智能化。论文地址： https://arxiv.org/abs/2402.14797
腾讯开源可控视频框架 MimicMotion，该框架可以通过提供参考人像及由骨骼序列表示的动作，来产生平滑的高质量人体动作视频。官网地址： https://tencent.github.io/MimicMotion
快手的可灵大模型团队开源了 LivePortrait 框架，它能实时、精准地将动态视频的表情和姿态转移到静态或动态的人像上，生成鲜活的视频效果。该框架自开源以来，受到广泛关注，Github stars 已达 6.6k+，近日登顶 HuggingFace 总排行榜榜一。官网地址：https://liveportrait.github.io/
AKOOL 发布革命性数字人平台，该平台打造的 AI 面部捕捉系统精细记录人脸微表情与动作，配以高级渲染技术，使虚拟角色生动逼真，达到影视级视觉效果，满足高端视频制作要求，引领数字娱乐新纪元，在数字人业务和直播推流领域展现出巨大的应用潜力。具体详情：https://www.jiqizhixin.com/articles/2024-07-17-8
MotionClone 框架，无需训练和微调，一键克隆视频中的运动信息，结合文本命令直接和文本提示一起指导新视频的生成，实现具有定制化运动的文本生成视频 (text2video)。官网地址：https://bujiazi.github.io/motionclone.github.io/
小模型战场刀光剑影
OpenAI 入局小模型战场，苹果也发布了 70 亿参数小模型 DCLM 并开源，其性能在某些方面超越 Mistral - 7B。更多详情：https://www.163.com/dy/article/J7KE5M190511ABV6.html
英伟达与 Mistral AI 联手发布 12B 参数小模型 Mistral NeMo，该模型性能在多项基准测试中赶超 Gemma 2 9B 和 Llama 3 8B。它支持 128K 上下文，推理等性能领先，兼容性强，可在多种设备上运行，采用 FP8 数据格式，部署灵活。更多详情：https://www.ithome.com/0/783/166.htm
腾讯元宝推出 3D 生成应用：一张图打造 3D 角色
腾讯推出了名为“腾讯元宝”的 3D 角色生成应用，用户只需上传一张清晰的正面头像，即可快速创建个性化的 3D 角色。该应用利用 3D 换头、几何雕刻和 PBR 材质贴图等技术，简化了传统 3D 形象生成的复杂流程，提供了从虚拟模型到实体打印的一站式服务。体验地址：https://yuanbao.tencent.com/chat
DeepL 推出新一代翻译编辑大型语言模型：译文受青睐度达 ChatGPT-4 的 1.7 倍。更多详情：https://www.ithome.com/0/782/571.htm
微软推出 SPREADSHEETLLM 模型，更加轻松的玩转 Excel 表格
SpreadsheetLLM 模型在电子表格检测任务中展现出色，相比常规方法，在 GPT-4 情境下性能提升 25.6%，且计算成本降低 96%。该模型仍存在一些局限，如处理带格式的表格和自然语言单元格效率不佳、无法高效处理使用背景颜色和边框的电子表格等。论文链接：https://arxiv.org/abs/2407.09025

小米声音大模型首度上车
在 2024 雷军年度演讲上，小米宣布声音大模型首次上车，小米 SU7 的“车外唤醒防御”即将上线，当车辆处于特定状态时，车外将无法语音操控相关部件，计划于 8 月通过 OTA 全系升级实现。更多详情：https://www.ithome.com/0/783/048.htm
AI 落地新战场：浏览器插件之争
浏览器插件成为 AI 应用落地的新战场，Kimi 和豆包等都推出了浏览器插件。Kimi 插件主打轻量级搜索，有“点问笔”和“总结器”功能，相对聚焦；豆包插件功能丰富，包括搜索、视频 AI 时间线、收藏夹、AI 伴读、文字生成图像等，还可个性化定制工具栏。更多详情：https://36kr.com/p/2866301672508296
Mistral AI 两连发：7B 数学推理专用、Mamba2 架构代码大模型
Mathstral 7B 专为 STEM 学科设计，在数学推理等领域表现优异，能正确回答难题，可通过增加推理时间提高效果，可在多个平台使用或微调；Codestral Mamba 7B 采用 Mamba 2 架构，具有线性时间推理和上下文长度优势，在基准测试中性能突出，可使用多种方式部署，ollama 已将 Mathstral 加入模型库并在处理 Codestral Mamba。更多详情：https://www.163.com/dy/article/J7A7596P0511ABV6.html
Elmo 插件：首个支持端侧模型的 Chrome 插件
贾扬清团队推出的 Elmo 插件再次升级，成为首个支持端侧模型的 Chrome 插件，可调用 Chrome 本地模型 Gemini nano，断网也能用。该插件能快速生成总结、摘要等，可用于精读论文、浏览新闻、吃瓜等，还具有视频时间轴分段总结功能。chrome 插件地址：https://chromewebstore.google.com/detail/elmo-chat-your-ai-web-cop/ipnlcfhfdicbfbchfoihipknbaeenenm

学术前沿

OpenAI 超级对齐团队遗作 PVG 训练框架：提升 AI 输出的准确性与可读性
OpenAI 超级对齐团队提出了一种名为 Prover-Verifier Games（PVG）的训练框架，旨在通过博弈论方法提升大型语言模型（LLM）输出的准确性和可读性。PVG 框架中，证明者（Prover）网络生成内容，可信的验证者（Verifier）网络则尝试判断这些内容的正确性。通过多轮迭代训练，两个模型相互博弈，最终达到一种平衡，使得输出内容既正确又易于理解。论文链接：https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf
探究大脑语言处理：普林斯顿团队对 Transformer 模型的分析
普林斯顿大学的研究团队在《Nature Communications》上发表文章，发现 Transformer 模型中的"transformations"与人类大脑处理语言时的活动有相似之处，特别是在上下文信息整合方面。通过 fMRI 数据分析，研究人员验证了这些计算能够预测大脑皮质语言网络中的显著活动差异，表明上下文信息在语言理解中的关键作用，并为自然语言处理技术提供了新的理解角度。论文链接：https://www.nature.com/articles/s41467-024-49173-5

大模型“自学”后能力反降
上海交通大学 GAIR 团队的研究发现，在经过多轮自学后，某些 AI 模型如 LLaMA-2-7B、Mistral-7B 和 LLaMA-8B 在常识理解、数学推理和代码生成等任务中的能力反而下降，出现了自我提升逆转现象，即 AI 的能力反而下降的现象。这种情形可以类比为应试的教育的学生，虽然提高了所刷题型的成绩，但是也容易陷入认知的死循环，从而失去了原有的创造力和适应新情况的能力。项目主页：https://gair-nlp.github.io/self-improvement-reversal/
贾佳亚团队推出 MR-Ben 基准：让大模型从“做题”变“挑错”，专治大模型“刷题”
贾佳亚团队推出 MR-Ben 评测新标准，撕破大模型“刷题”高分低能的面纱，真实的评估各模型的推理能力，GPT4-Turbo 表现最佳，但得分仍未超过 50。项目主页：https://randolph-zeng.github.io/Mr-Ben.github.io/
公理训练：让小模型拥有强大因果推理能力
微软、MIT 和印度理工学院海得拉巴分校的研究团队开发了一种公理训练方法，通过在小规模因果图谱上训练 Transformer 模型来学习简单的因果推理，并成功泛化至更复杂的场景。这项训练方式使用因果链的符号演示，让模型学会执行基本的因果推理，并在 6700 万参数的模型上实现了与万亿参数级 GPT-4 相媲美的性能。论文链接：https://arxiv.org/pdf/2407.07612
浙江大学与跨越星空科技的团队推出了在线评测框架 WebCanvas，用于精确评估智能代理在真实网络环境中的表现，通过关键节点和评估指标，促进了 LLM Agent 技术的发展和评测方法的创新。官网地址：https://imean.ai/web-canvas
斯坦福/苹果等 23 所机构发布 DCLM 基准测试，高质量数据集能否撼动 Scaling Laws？基础模型与 Llama3 8B 表现相当https://hyper.ai/news/33001

社区热议

谷歌 DeepMind 抄袭风波：顶级会议论文被指洗稿，引发学术界震动
谷歌 DeepMind 的一篇顶级会议论文被指责抄袭，该论文与一年前公开在 arXiv 的研究高度相似，尽管 DeepMind 声称其工作是独立开发的，但原告认为 DeepMind 的解释不足信，这一争议激起了学术界对原创性和引用规范的讨论。更多详情：https://www.qbitai.com/2024/07/166525.html
Meta Llama 3 模型开源遭质疑，开源大模型困境凸显
Meta 推出的 Llama 3 模型被指并非真正开源，目前开源人工智能缺乏清晰定义，Meta 的许可证也未获 OSI 批准。众多号称开源的大模型在训练数据和过程的透明度方面表现不佳，关键内容未开放，致使开发者优化和改进模型的能力受到限制。更多详情： https://www.163.com/dy/article/J7F0QO2B0511ABV6.html

智见交锋

规模定律未失效：微软 CTO 展望大型语言模型的持续创新与突破
微软 CTO 凯文・斯科特在播客采访中重申，坚信大语言模型（LLM）的“规模定律”将继续推动 AI 的进步，他认为规模化尚未达到边际收益递减的临界点，并预期未来模型将解决当前的成本和稳定性问题，实现更复杂的功能。尽管有批评声音认为 LLM 模型如 GPT-4 的进步不如以前显著，微软依然看好并投资于大型 AI 模型的发展。更多详情：https://www.ithome.com/0/782/190.htm
生成式 AI 依赖记忆，推理能力待提升
麻省理工学院 CSAIL 实验室最新研究指出，生成式 AI 如 ChatGPT 等更依赖记忆而非推理能力，在熟悉任务上表现好，但面对新问题力不从心。虽然 AI 在某些方面超越人类，但在创意、解决复杂问题等方面仍有提升空间，如媒体和游戏行业中 AI 仍无法取代人类。更多详情：https://www.ithome.com/0/782/419.htm

大模型信任危机与破解之道
以 ChatGPT 为典型的大模型面临着严峻的信任挑战，诸如内容难以判别真伪、存在幻觉现象以及伦理风险等。要化解这一问题，应当从技术特点和人机关系方面着手，大语言模型作为一种认知技术，其信任建立在人际信任和技术信任的动态交互之上，以及基于有效的监督所形成的认知信任。构建大语言模型信任的路线图包含搭建以可解释性作为核心的信任构成要素、构建多主体协同的信任环境、培育人们对于 AI 的信任认知，并对信任进行合理分配。更多详情：https://36kr.com/p/2863277799230336

AI 热潮：是机遇还是泡沫？
当下，对于 AI 热潮是否存在泡沫争议不断。摩根士丹利看好微软 AI 业务的商业回报增长，高盛则指出科技巨头在 AI 上的投入需能带来收入和利润，否则估值或贬值。当前 AI 对经济影响不明，但其竞争不停，各公司需探索可持续商业模式，以防“互联网泡沫”重现。更多详情：https://36kr.com/p/2867649603768710

跨界 AI

借助 AI 算法实时生成的纪录片《Eno》，拥有高达 52 万亿亿个可能的版本，每次播放都是一个全新版本，突破了传统电影的固定模式，为观众提供独特且不可复制的观影体验。更多详情：https://www.jiqizhixin.com/articles/2024-07-19-9
抖音和快手分别推出 AI 短剧《三星堆：未来启示录》和《山海奇镜之劈波斩浪》，展示了 AI 技术在影视制作中的应用潜力，尽管面临人物表现和情节连贯性的挑战，AI 的引入大幅提高了短剧制作的效率并降低了成本，为短剧行业带来了新的发展机遇。
AI 领域知名专家 Andrej Karpathy 宣布创办 Eureka Labs——结合 AI 与教育的公司，旨在创建 80 亿人的 AI 原生的全球学校，并推出了广受欢迎的 AI 课程 LLM101n，在 GitHub 上获得 17.2k+ stars。在这门课程中，将构建一个讲故事的 AI 大模型。通过这个过程，学生能够与 AI 一起创作、完善和绘制小故事。
中国农业大学在第八届智慧农业创新发展国际会议上发布了升级版的神农大模型 2.0，该模型在多模态交互和智能化推理方面进行了提升，包含四个专门化的农业专业大模型，覆盖育种、种植、养殖、农业遥感及气象等多个应用场景，旨在通过科技手段提高农业生产效率和保障粮食安全。
谷歌 AI 深度学习模型 REGLE：解锁无监督基因组发现新纪元
Google Research 的基因组学团队开发了一种名为 REGLE 的无监督深度学习模型，该模型能够从高维临床数据中发现基因变异与疾病之间的关联，无需疾病标签，计算效率高，并能整合专家定义的知识信息。REGLE 通过变分自动编码器学习临床数据的低维表示，独立进行 GWAS，并使用多基因风险评分改善基因发现和疾病预测。更多详情：https://www.jiqizhixin.com/articles/2024-07-19-8
AI 革新痴呆症诊断：准确率提升 26%，助力全球医疗应对老龄化挑战
波士顿大学的研究团队开发了一种 AI 工具，能够利用临床数据同时诊断 10 种不同类型的痴呆症，将医生的诊断准确率提高了 26% 以上。论文链接：https://www.nature.com/articles/s41591-024-03118-z
AI 赋能癌症治疗：格拉德斯通研究所的新探索途径
美国旧金山格拉德斯通研究所的科学家正利用 AI 探索癌症治疗方案，旨在通过工程化患者自身免疫细胞来杀死癌细胞。所长 Deepak Srivastava 博士表示，癌症源于细胞未纠正随机错误，团队目标是用机器学习模型区分癌细胞驱动因子，以进行更有效实验，借助 AI 可进行大量实验以找到最佳治疗手段。更多详情：https://www.ithome.com/0/783/187.htm

企业动态

AI 超算争霸战
AI 争霸战打响，OpenAI 将建 10 万块 GB200 超算，xAI 计划本月末用 10 万块 H100 开训。更多详情：https://www.163.com/dy/article/J77K7G680511ABV6.html
美国军方大规模布局 AI 项目
曼哈顿计划 2.0 来了？截止目前，美国军方已经拥有 800 多个活跃的 AI 项目，仅在 24 年就为 AI 申请了 18 亿美元的资金。在未来五年内，美国还将拨款 60 亿美元，用于无人协作战斗机的研发。现在，AI 似乎已经进入了奥本海默时刻。更多详情：https://36kr.com/p/2863164351302537
Alphabet 拟巨资收购 Wiz，布局网络安全领域
谷歌母公司 Alphabet 拟以约 230 亿美元收购网络安全初创公司 Wiz，战略布局网络安全和云计算领域，若达成将成为其史上最大收购。当前科技巨头 AI 收购竞赛激烈，AI 投资增长，国内外市场有差异，伦理和监管问题凸显，AI 行业投融资回升。更多详情：https://36kr.com/p/2867768885710978
xAI 与 OpenAI 的人才抢夺战
2024 年 AI 人才争夺战激烈，马斯克的 xAI 与 OpenAI 在人才争夺上硝烟弥漫。xAI 创始工程师 Kosic 于今年 4 月离开 xAI 重返 OpenAI，更多详情：https://www.ithome.com/0/783/005.htm

争议 AI

科技巨头苹果、英伟达涉嫌使用未经授权的字幕文件训练 AI
据报道，包括苹果、英伟达和 Salesforce 等科技巨头被指未经 YouTube 视频创作者同意，使用其视频的字幕文件来训练 AI 模型，此举违反了 YouTube 禁止未经许可抓取内容的规定。尽管苹果自身未下载数据，但此事件凸显了用网络数据训练 AI 系统的法律风险。更多详情：https://www.ithome.com/0/782/233.htm
美国新提案：打击深度伪造，规范 AI 生成内容
7 月 11 日，美国两党三位参议员推出 COPIED 提案，以打击有害深度伪造，建立 AI 生成内容透明度准则。该提案要求制定相关标准防篡改水印，工具方允许所有者附加出处信息且禁止未经授权使用，赋予相关机构执行和起诉权利，禁止干扰出处信息。更多详情：https://www.ithome.com/0/782/195.htm
构筑 AI 安全防线，谷歌、微软、英伟达等 14 家公司组建安全 AI 联盟
7 月 18 日，在阿斯彭安全论坛会议上，谷歌、微软、OpenAI、亚马逊、英伟达、英特尔等 14 家 AI 领域大公司宣布联合组建安全人工智能联盟（CoSAI），该联盟由 OASIS 全球标准机构主办，其目标包括开发人工智能安全最佳实践、应对挑战和确保应用安全，工作范围涵盖降低多种风险。更多详情：https://www.ithome.com/0/782/764.htm
因监管问题，Meta 调整 Llama 模型在欧盟发布策略
因监管环境不确定性，Meta 决定不在欧盟发布即将推出的多模态 Llama 模型，而向欧盟客户和公司提供仅支持文本的 Llama 3 模型。此前，苹果也因监管问题宣布欧盟用户无法使用其新系统的部分功能。更多详情：https://www.ithome.com/0/782/535.htm

日本新闻协会称 AI 搜索可能侵犯著作权
日本新闻协会于 7 月 17 日声明，谷歌、微软等公司的 AI 搜索功能可能侵犯著作权，该服务擅自利用新闻报道作为信息源，生成存在错误内容的回答，且直接显示内容，与网络搜索为人们“指路”的作用不同，构成侵权行为。协会要求美国 IT 巨头获得新闻媒体的使用许可，并呼吁政府修改《著作权法》等相关法律进行调整和完善。更多详情：https://www.ithome.com/0/782/736.htm

后语

我是 战场小包 ，一个喜欢 AI 和前端的小编程。

如果喜欢小包，可以在掘金关注我，同样也可以关注我的小小公众号——小包学前端，公众号会持续地更新 AI 和前端的知识。

一路加油，冲向未来!!!

发布于: 2024-07-22阅读数: 5

原文链接:【http://xie.infoq.cn/article/23e4c2893cedd387b52afd148】。文章转载请联系作者。

战场小包

关注

成长中的小前端，一起努力，一起进步 2021-09-23 加入

掘金签约作者、InfoQ签约作者、阿里云社区签约作者。公众号: 小包学前端

发布

暂无评论

创作场景