写点什么

万字长文年中盘点,2024 上半年大模型技术突破与应用展望

作者:可信AI进展
  • 2024-07-23
    浙江
  • 本文字数:12988 字

    阅读完需:约 43 分钟

本文作者介绍:苑爱泉,阿里本地生活-高级算法专家,负责本地生活的 AI 算法团队。团队工作涉及搜索、认知图谱、LLM 大模型、图片视频等方向,过往几年,发表过多个专利,多篇论文入选 WSDM、CIKM、ICASSP 等顶级会议。

文章推荐

“人工智能教母”李飞飞创立的公司现估值10亿美元!字节将于明日首次公布视频大模型进展?|AI日报

没想到你是这样的AI!AI漫画合集大赏,直击灵魂的雷点...等你来看!

一、业界有哪些新鲜事儿?

上半年可以说是各大厂商轮番上台秀肌肉,我们先回顾下上半年部分的业界大会,以及几个重点会议都发布了啥:

  • 3 月 18 日,英伟达·GTC 大会

  • 3 月 23-24 日,上海.GDC 全球开发者先锋大会

  • 4 月 9 日,Cloud Next 2024

  • 4 月 11-13 日,Qcon24,北京

  • 4 月 15 日,斯坦福 AI Index Report

  • 4 月 16 日,百度 AI 大会

  • 4 月 17 日,量子位.中国 AIGC 产业峰会

  • 5 月 13 日,OpenAI 春季发布会:GPT-4o

  • 5 月 14 日,Google I/O 大会

  • 5 月 15 日,2024 春季·火山引擎·FORCE 原动力大会

  • 5 月 17 日,AICon'24

  • 6 月 2 日,台北·Computex2024·英伟达

  • 6 月 10 日,苹果 WWDC24

  • 6 月 14-15 日,智源大会

  • 7 月 4-6 日,上海 WAIC 大会

……

5 月 13 日,OpenAI「春季新品发布会」

OpenAI 用一场临时准备的春季发布会,提前“狙击”了谷歌,GPT-4o 实时、带有情感的交互模式令人震撼。o 是 omni 的缩写,大而全万能的意思,足见其野心。我们公众号也第一时间对GPT-4o做了测评。然而,2 个月过去了,最令人期待的实时交互能力还是没有上线。

5 月 14 日,Google I/O 大会

有了 GPT-4o 珠玉在前,Google I/O 大会上的发布似乎都“黯然失色”了,不过,仔细整理下还是有点东西的。

1)Gemini 系列:

  • Gemini 1.5 Pro,到 2M tokens;1.5 Pro 其实在 2.15 已经发布,此次是从 1M tokens->2M tokens;可以看出,Gemini 在短期内,还是在 1.5 这个代际上;2 代何时发布,翘首以盼。

  • Gemini 1.5 Flash:本次新发布,低延迟、低成本

  • Gemini Nano:根植于 Android 操作系统里的现场演示了一个 case,是通话自动分析危险和提醒多模态的,可以提供语音、视觉等交互;自动理解对话并提供建议

2)Gemma 系列

宣称,Gemma2 即将发布

  • 发布了 PaliGemma;模型大小是 3B;能做哪些任务呢?Fine-tuning on single tasks 对单个任务进行微调 Image question answering and captioning 图像问答和字幕 Video question answering and captioning 视频问答和字幕 Segmentation 分割

  • 以及 24.2,Gemma-7B 发布,是基于 Gemini 的 24.4,Gemma 的两种结构变体发布:CodeGemma | RecurrentGemma24.4,Gemma 1.1 发布

3)发布 Imagen-3

本次新发布了 Imagen-3,2023 年 12 月发布 Imagen-2,2022 年 5 月发布 Imagen-1。

4)Veo,视频生成

可以创建高质量、逼真的 1080p 视频片段。同时,支持文本到视频、视频到视频以及图像到视频的转换。

5)AI 应用

智能搜索、Gemini Advanced Assistant 等

6 月 2 日,英伟达·Computex 2024

6 月 2 日,在 2024 台北国际电脑展(Computex 2024)的 keynote 上,英伟达联合创始人兼 CEO 黄仁勋发布了英伟达最新的 AI 技术和未来的战略布局。

  • AI Factory

  • NIM,在线推理微服务

  • 数字人/ACE

  • 新一代 GPU:B 系列

还有那句名言:The more you buy, the more you save...



  • Blackwell 新架构:一块 BlackWell 包含两块 B200 芯片。B200 是到目前为止,世界上最强大的单芯片 Blackwell GPU 的单芯片 AI 性能高达 20 PetaFLOPS,比上代 Hopper H100 提升 4 倍。配备 192GB HBM3e 内存,带宽高达 8TB/s;Blackwell GPU 的 AI 推理性能比上一代提升了 30 倍;两者之间互联,速度可达到 10TB/s 配备第五代 NVLink,提供 1.8TB/s 双向带宽,支持多 GPU 无缝通信。支持高达 10 万亿参数的大型语言模型。(10 万亿,即 10000B,即 10T)

……老黄在介绍 Blackwell 的时候不小心泄露了某代 GPT 的参数情况?1.8T,即 1800B,即 18000 亿参数。

另外,整理了下英伟达历年 GPU 系列:

6 月 10 日,苹果 WWDC 2024

这次发布会重新定义了苹果版的“AI”,是“Apple Intelligence”。库克站到了屋顶上,挺安全的?其他人在苹果环中间的会议室,但没有观众:

1)苹果版 AI

五个关键词:

  • Powerful:强大高效,在 A17、M1/2/3/4 等 Apple Silicon 芯片上都可运行

  • Intuitive:直接交互操作,不麻烦

  • Intergrated:整合了多个应用,可以跨应用执行 Action

  • Personal:有效捕获个人上下文

  • Private:本地 device 上的端侧大模型;即使有云计算,也会严格保密

深度定制的 AI Native:可以跨应用执行

端云结合:

1、在设备上进行处理,保护个人隐私(端侧大模型),同时提供强大的智能功能。

2、私有云计算使 Apple Intelligence 能够扩展计算能力,同时保护用户隐私,确保数据不被存储或访问。

2)Siri 重生

Siri 到现在有十几年了,我自己用下来,能对话,但谈不上智能。自然感、拟人感、惊喜感,更谈不上。这次通过 Apple Intelligence,Siri 将变得更加自然、与上下文相关和个性化,还能支持更多功能和操作。

4 月 15 日,斯坦福 AI Index Report

斯坦福 AI 报告官网:https://aiindex.stanford.edu/report/

1)Top10 Takeawayes

1. 人工智能在某些任务上击败了人类,但不是在所有任务上。人工智能在几个方面已经超越了人类的表现基准,包括图像分类、视觉推理和英语理解方面的一些基准。然而,它在更复杂的任务上落后了,比如竞赛级的数学、视觉常识推理和规划

2. 工业继续主导前沿人工智能研究。2023 年,工业界产生了 51 个值得注意的机器学习模型,而学术界只贡献了 15 个。2023 年,产学合作的知名车型也创下了 21 个新高。

3. Frontier 模型变得更加昂贵。根据 AI Index 的估算,培训成本最先进的人工智能模型已经达到了前所未有的水平。例如,OpenAI 的 GPT-4 使用估计价值 7800 万美元的计算来训练,而谷歌的 Gemini Ultra 的计算成本为 1.91 亿美元。

4.美国领先中国、欧盟和英国,成为顶级人工智能的主要来源模型。2023 年,有 61 个著名的 AI 模型来自美国机构,远远超过欧洲联盟有 21 个,中国有 15 个。

5. 严重缺乏对 LLM 责任的有力和标准化的评估。Responxible AI:人工智能指数(AI Index)的最新研究表明,负责任的人工智能报告严重缺乏标准化。包括 OpenAI、Google 和 Anthropic 在内的领先开发人员主要针对不同的负责任的 AI 基准测试他们的模型。这种做法使系统地比较顶级人工智能模型的风险和局限性的努力变得复杂。

6. 生成式人工智能投资猛增尽管整体人工智能私人投资有所下降年,生成式人工智能的资金激增,比 2022 年增长了近八倍,达到 252 亿美元。生成式人工智能领域的主要参与者,包括 OpenAI、Anthropic、Hugging Face 和 Inflection,都报告了大量的融资轮次。

7.数据在人工智能使工人更有效率,并带来更高质量的工作。在 2023 年,几项研究评估了人工智能对劳动力的影响,表明人工智能使工人能够更快地完成任务并提高他们的产出质量。这些研究还证明了人工智能在弥合低技能工人和高技能工人之间技能差距方面的潜力。尽管如此,其他研究警告说,在没有适当监督的情况下使用人工智能会导致性能下降。

8. 多亏了人工智能,科学进步进一步加速。比如 Google AlphaFole 3.2022 年,人工智能开始帮助科学发现。然而,2023 年推出了更重要的与科学相关的 AI 应用程序——从提高算法分拣效率的 AlphaDev 到促进材料发现过程的 GNoME。

9. 美国人工智能法规的数量急剧增加。AI 美国的相关法规在过去一年和过去五年中大幅增加。2023 年,有 25 项与人工智能相关的法规,而 2016 年只有一项。仅去年一年,与人工智能相关的法规总数就增长了 56.3%。

10. 全球各地的人们都更加意识到人工智能的潜在影响,也更加紧张。益普索(Ipsos)的一项调查显示,在过去的一年里,认为人工智能将在未来三到五年内极大地影响他们生活的比例从 60%上升到 66%。此外,52%的人表示对人工智能产品和服务感到紧张,比 2022 年上升了 13 个百分点。在美国,皮尤数据显示,52%的美国人表示对人工智能的担忧多于兴奋,高于 2022 年的 37%。

2)一些 Slide



3)AI 对 Economy 的影响

1. 生成式人工智能投资猛增。尽管去年整体人工智能私人投资有所下降,生成式人工智能的资金激增,比 2022 年增长了近八倍,达到 252 亿美元。生成式人工智能领域的主要参与者,包括 OpenAI、Anthropic、Hugging Face 和 Inflection,都报告了大量的融资轮次。

2. 美国已经处于领先地位,在人工智能私人投资方面走得更远。2023 年,美国的人工智能投资达到 672 亿美元,是第二大投资国中国的近 8.7 倍。自 2022 年以来,中国和欧盟(包括英国)的私人人工智能投资分别下降了 44.2% 和 14.1%,而美国在同一时期经历了 22.1% 的显着增长。

3. 美国和全球的人工智能工作岗位减少2022 年,人工智能相关职位占美国所有职位发布的 2.0%,这一数字在 2023 年降至 1.6%。人工智能职位列表的下降归因于,领先的人工智能公司的职位减少以及这些公司中技术职位的比例下降。

4. 人工智能降低成本,增加收入。麦肯锡的一项新调查显示,42%的受访者组织报告说,实施人工智能(包括生成式人工智能)降低了成本,59%的组织报告了收入增加。与上一年相比,报告成本下降的受访者增加了 10 个百分点,这表明人工智能正在推动业务效率的显着提高。

5、VC:人工智能私人投资总额再次下降,而新融资的人工智能公司数量增加全球私人人工智能投资已连续第二年下降,但幅度不大从 2021 年到 2022 年急剧下降。新融资的人工智能公司数量激增至 1,812 家,比上年增长 40.6%。

6. 人工智能组织的采用率上升。麦肯锡 2023 年的一份报告显示,现在有 55% 的组织在至少一个业务部门或职能中使用人工智能(包括生成式人工智能),高于 2022 年的 50% 和 2017 年的 20%。7+8. 中国在工业机器人领域占据主导地位

  • 自 2013 年超越日本成为领先的安装商以来在工业机器人方面,中国已经大大拉大了与最接近的竞争对手国家的差距。

2013 年,中国的装机量占全球总量的 20.8%,到 2022 年这一比例上升到 52.4%。机器人安装更加多样化。

2017 年,协作机器人仅占总数的 2.8%新的工业机器人安装量,到 2022 年,这一数字攀升至 9.9%。同样,2022 年,除医疗机器人外,所有应用类别的服务机器人安装量都有所增加。这一趋势不仅表明机器人安装的整体增加,而且越来越重视部署机器人来扮演面向人类的角色。9. 财富 500 强公司开始大量谈论人工智能,尤其是生成式人工智能。2023 年,在 394 次财报电话会议上提到了人工智能(占所有财富 500 强公司的近 80%),比 2022 年的 266 次有显著增加。自 2018 年以来,《财富》500 强企业财报电话会议中提及人工智能的次数几乎翻了一番。在所有财报电话会议中,最常被提及的主题是生成式人工智能,占所有财报电话会议的 19.7%。

二、新出现了哪些大模型?

2.1 榜单:Chat Arena

伯克利·大模型竞技场 Arena:https://chat.lmsys.org/?leaderboard这里就不放结果了,大家可以自行复制链接去看。

1)首创对战模式

伯克利 LMSYS 组织的 Chatbot Arena,至今依然是比较知名的大模型排行榜之一。采用大模型两两对战的形式,成千上万的网友,打开页面,左右对话,给出评分。https://arena.lmsys.org/

如上截图,在底部蓝框,输入 prompt 后;左右两个模型,同时 response,绿框部分。用户点击四个按钮进行打分:A 更好、B 更好、两者打平、两者都不好。在每场战斗中,都会对两个匿名模型进行采样。为了鼓励数据多样性,不会在网站上预设任何输入提示。用户可以自由输入两个模型的任何提示。

它还可以帮助我们收集代表实际使用情况的各种输入。在模型提供答案后,用户将它们并排比较并投票选出首选答案。如果用户在第一回合无法选择,则用户可以继续聊天,直到确定获胜者。对于那些不确定的人,我们还提供了两个按钮,“领带”或“两者都不好”。

2)LMSYS 组织

伯克利的 LMSYS 组织,从 2023 年在大模型研发、评测,有一定的影响力,做了几件事:

Timelines:

[2024/03] 发布 Chatbot Arena 的技术报告

[2023/09] 发布 LMSYS-Chat-1M,一百万真实对话数据,来自于竞技场平台

[2023/08] 发布 Vicuna v1.5:基于 Llama 2,上下文长度为 4k/16k

[2023/07] 发布 Chatbot Arena Conversations,数据集,含有 33k 对话数据

[2023/08] 发布 LongChat v1.5,基于 Llama 2,for 32K context lengths

[2023/06] 发布 MT-bench,并发布 Vicuna-1.3,有 7B/33B 两个版本

[2023/06] 发布 LongChat,针对 LLM 长上下文的 Eval Tool;LongChat 针对长上下文的 LM 评测 MT-Bench 评测集准,在后来的 InternLM2 里还用到了该评测

[2023/05] 发布 Chatbot Arena,进行模型对战模式,并发布了对话 dataset,从最开始的 33k 到 1M

[2023/03] 发布 Vicuna1.0(羊驼),13B,基于 LLaMA-训练得到;同期,斯坦福有 Alpaca

在此看下,Vicuna、Alpaca 和 LLaMA 三者,以下来自 GPT-4o:

1. LLaMA

  • 全称:Large Language Model Meta AI

  • 开发者:Meta(原 Facebook)

  • 特点:LLaMA 是一个由 Meta 开发的大型语言模型,旨在提供高效和高性能的文本生成和理解能力。它是这三者中最基础的模型,为其他模型提供了基础架构和预训练数据。

2. Alpaca

  • 基础:基于 LLaMA 模型

  • 开发者:斯坦福大学的研究团队

  • 特点:Alpaca 是在 LLaMA 模型的基础上进行了进一步微调和优化的语言模型。它通过大量的对话数据和特定任务数据进行训练,旨在提升对话系统和任务处理的性能。Alpaca 模型对一些特定的对话任务有更好的理解和生成能力。

3. Vicuna

  • 基础:基于 LLaMA 和 Alpaca 模型

  • 开发者:来自 UC 伯克利、卡内基梅隆大学和斯坦福大学的研究人员

  • 特点:Vicuna 是在 LLaMA 和 Alpaca 模型的基础上进一步发展和优化的对话语言模型。它专注于提升对话生成任务的表现,通过优化模型结构和使用更丰富的训练数据来提高对话的流畅度和上下文理解能力。

最后总结:

  • Vicuna:在 LLaMA 和 Alpaca 的基础上进一步优化,专注对话生成。

  • Alpaca:基于 LLaMA 进行微调,特别针对对话系统进行优化。

  • LLaMA:最基础的大型语言模型,为其他两个模型提供了基础架构和预训练模型。

总体来说,LLaMA 是基础,Alpaca 在其基础上进行了优化,Vicuna 则在前两者的基础上进行了更深度的优化和特定领域的提升。

2.2 视频生成大火

1)Sora:OpenAI

Sora 炼成记-32 篇 Ref

这里就不展开叙述了,大家可以去看官方技术报告:https://openai.com/research/video-generation-models-as-world-simulators

Sora 火了后,一大堆复现 Sora

2)Open-Sora:

关键词:16 秒、720p、任意宽高比伸缩性:variousdurations/resolutions/aspectratios/framerates 不同宽高比:



图生视频

->

  • 预训练数据:970 万视频 + 260 万图像

  • 微调数据:560k 视频 + 160 万图像

Open-Sora 采用多阶段训练方法,每个阶段根据前一阶段的权重继续训练。在 64 个 H800 GPU 上大约 9 天。这里就不详细展开技术细节了,感兴趣的可以复制下面的链接看:

3)Vidu:清华

Vidu:(We Do) Together5 月 7 日消息,生数科技的 Vidu,登顶央视新闻联播。生数科技联合清华大学最新发布的原创自研视频大模型 Vidu 获得央视《新闻联播》《东方时空》《新闻 30 分》等多个栏目的报道,其中 CCTV13《东方时空》更是对 Vidu 及背后研发团队进行了长达 12 分钟的专题介绍。Vidu 生成的视频达到了 16 秒,并且做到了画面连续流畅,且有细节、逻辑连贯。其核心架构,是 2022 年 9 月生数科技发表的 paper,提到的 U-ViT 架构。

技术脉络:2022 年 9 月/U-ViT(核心架构) + 2023 年 3 月/UniDiffuser(多模态多任务统一 &U-ViT 大规模验证) -> Vidu

2.3 LongCtx:更长的上下文

1)Kimi 率先“卷”

在 2024 年 3 月 18 日,月之暗面宣布 Kimi 智能助手已支持 200 万字的超长无损上下文输入。这一突破使得 Kimi 成为全球首个支持如此长上下文的大模型,并且在短短五个月内从最初的 20 万字提升到了 200 万字。

可以看到上图的 paper,是 2022 年 4 月 OpenAI 的 DALL·E-2,大约 27 页。像这样的上传 pdf 做总结,单词对话内能 10~20 次,才会超出对话长度(200 万字)。还可以单次对话内上传多个文件,跨文件间问答。

2)Gemini 1.5 Pro:1000 万?

不同输入下的“大海捞针”测试:

在 Text 输入里,实际输入的是 7M,理论上到 10M 都基本全绿;2M 的 Audio,大约 22hours,是全绿;2.8M 的 Video,大约 3hours,是全绿;可以到 1M,最长到 10M。10M 是个什么水准的长度呢?Paper 里做了打比方:

3)其它模型

下图截自豆包 Coze 应用开发平台;“xx k”不代表,该模型最长上下文的模型版本,仅供参考。


2.4 MoE:多任务训练

2023 年 6 月,智源大会上,Google 科学家周彦祺(T5 大模型的作者,上交大毕业生),公布自己的工作方向,是大模型+多任务/MOE

2023 年 9 月,法国 AI 公司 Mistral,率先采用 MoE 架构,训练大模型

这里面的 Mistral 8x7B,在 infer 时仅有 7B 的参数,打败了 70B 的 LlaMA。2024 年 2 月,Google 发布 Gemini 1.5 Pro,是个 MoE 模型随后,马斯克的 xAI 也公开宣布采用了 MoE:

随后,阿里 Qwen 等业界诸多公司,都采用了 MoE:

MoE 训练大模型,逐渐成了一种“范式”。此外,2018 年 Google 提出来 MMoE,如下图,成为一代经典模型,在排序推荐中用到很多。阿里后来有 ESMM。


2.5 合成数据

比如,微软的 Phi 系列。Phi 黄金分割奇妙之处,在于其比例与其倒数是一样的。例如:1.618 的倒数是 0.618,而 1.618:1 与 1:0.618 是一样的。

  • 2024 年 4 月 22 日,Phi-3,有技术报告/paper

  • 2023 年 12 月,Phi-2,2.7B,1.4Ttoken,无 RLHF,无 paper

  • 2023 年 9 月,phi-1.5,1.3B,有技术报告

  • 2023 年 6 月,phi-1,1.3B/350M 两个 size,有 paper

整个微软·Phi 系列,一直在围绕核心命题,是:不贸然追求 size 和 data 的“参数量/数量”,而是“小而美”如何用 mini size + high quaility data,去做优秀的 LLM 所以微软自己宣称,做的不是“LLM”(Large LM),而是 “SLM”(Small LM)。特别是在 phi-2 的技术报告里,高频出现 SLM 从 phi-1->phi-1.5->phi-2->phi-3,核心发展趋势是:

  • 数据量在指数级增长,从 phi-1 的 7B,到 phi-3 的 4.8T,都在高保质量

  • model size 在很克制地增长,但不到一个数量级,最最初的 0.35B、到 phi-3 里的 14B

还有条发展子线,就是在数据线下面,一直在倡导,合成数据 synthetic data;基于人工先验知识,采用 GPT-3.5/4 等既有 LLM,来自动化批量生成。从 Phi-1 到 Phi-1.5 里,都验证了合成数据的重要性;

Phi-1 里的 1B code data 是合成的,Phi-1.5 的 20B (常识推理、NLP 理解等)是合成的,都起到了第一重要。

还有个点是,phi 一直是“基础”模型,即 pretrain 后的 raw model;没有 instruction tuning,也没有 RLHF 式的强行 Alignment 这一点,官方宣称是,为了给开源社区,更好的二次起点(更“古朴”的 model 开源出来,让大家发挥的空间更大)但也暗含了一个理念就是:基于 TextBooks 般高质的、合成的数据,已经沁入了人类专家的诸多先验知识,Pre-Train 本身就完成了指令、对齐的目的,那无需再搞一个 Post-Train 的。

2.6 Ferret:端侧模型在崛起

苹果有个模型系列,叫雪貂,即 Ferret


Timelines:

  • 2024 年 4 月 23 日,OpenELM:270M/450M/1.1B/3B

  • 2024 年 4 月 11 日,提交 Ferret-v2 的 paper

  • 2024 年 4 月 8 日, 提交 Ferret-UI 的 paper:将 Ferret 用于移动设备 UI 交互

  • 2024 年 3 月 29 日,ReALM:80M/250M/1B/3B,在智能设备上的对屏幕的理解和用户的响应

  • 2024 年 3 月 26 日,基于 LLM 在端侧设备上进行 ASR

  • 2024 年 3 月 14 日,MM1 大模型,30B

  • 2023 年 12 月,技术研究:LLM 在 DRAM 有限的设备如何运行

  • 2023 年 12 月,发布 Ferret 的 checkpoint:7B, 13B

  • 2023 年 10 月,提交 ferret 的 code,发布 Ferret-Bench.

  • 2023 年 10 月,提交 Ferret Paper,即 v1 版:将 referring+grounding 任务融入多模态大模型中

Ferret-UI:示意图


Ferret-UI 能够在移动 UI 屏幕上:

  1. 使用灵活的输入格式(点、框、涂鸦)

  2. 使用 grounding task(例如,查找小部件、查找图标、查找文本、小部件列表)

  3. 来执行 referring task(例如,小部件分类、图标识别、OCR)。

这些基本任务为模型提供了丰富的视觉和空间知识,使其能够在粗略和精细级别(例如各种图标或文本元素之间)区分 UI 类型。

这些基础知识对于执行更高级的任务至关重要。

具体来说,该模型不仅能够在详细描述和感知对话中讨论视觉元素,还可以在交互对话中提出面向目标的动作,并通过功能推理推断出屏幕的整体功能。

Ferret-UI:模型结构



Ferret-UI-anyres 包含额外的细粒度图像功能。

1、预训练的图像编码器和投影层为整个屏幕生成图像特征。

2、对于基于原始图像长宽比获得的每个子图像,都会生成额外的图像特征。

3、对于具有区域参考的文本,视觉采样器会生成相应的区域连续要素。该 LLM 使用全图像表示、子图像表示、区域要素和文本嵌入来生成响应。

2.7 国内代码模型有点猛

来看 DeepSeek-Code-V2:

  1. 开源 Mixture-of-Experts (MoE)模型:通过进一步预训练,达到了与闭源模型(如 GPT4-Turbo)在代码特定任务上相当的性能。

  2. 从 DeepSeek-V2 的中间检查点开始,额外预训练了 6 万亿个 token(就是 6T),增强了 DeepSeek-V2 在编码和数学推理方面的能力,同时保持了在通用语言任务上的性能。

  3. 支持多种编程语言:对编程语言的支持,从 86 种增加到 338 种,这大大扩展了模型的适用范围。

  4. 上下文长度从 16K 扩展到 128K,使得模型能够处理更复杂和广泛的编码任务。

  5. 标准基准测试中的优越性能:在编码和数学基准测试中,DeepSeek-Coder-V2 展示了比闭源模型更优越的性能。

  6. 数据集构建:数据集包括 60%的源代码、10%的数学语料库和 30%的自然语言语料库,这些数据集经过精心筛选和清洗。

Timelines:

另, 其它代码模型简介如下:

  • Meta 的 LLaMA 系:CodeLlama:基于 Llama2 的代码语言模型组成,并在 500 至 10000 亿个代码 token 的数据集上继续进行预训练。这些型号有四种尺寸:7B、13B、34B 和 70B。

  • BigCode 出品,(BigCode 社区是由 ServiceNow 和 HuggingFace 共同管理)StarCoder:一个可公开访问的模型,拥有 150 亿个参数。它经过精心策划的 Stack 数据集子集的专门训练,涵盖 86 种编程语言。StarCoder2:由 3B、7B 和 15B 参数模型组成,这些模型在 Stack2 数据集的 3.3 至 4.3 万亿个 token 上进行训练,涵盖 619 种编程语言。

  • 幻方量化出品:DeepSeek-Coder:包含一系列代码语言模型,参数范围从 10 亿到 330 亿不等。每个模型都在 2 万亿个 token 上从头开始训练,其中 87% 是代码,13% 是英文和中文的自然语言。这些模型使用 16K 窗口大小和额外的填空任务在项目级代码语料库上进行预训练,从而支持项目级代码补全和填充。

  • Mistral 出品:Codestral:22B 参数模型。它接受了超过 80 种编程语言的多样化数据集的训练,包括 Python、Java 和 JavaScript 等流行语言,以及 Swift 和 Fortran 等更专业的语言。官博在这里:https://mistral.ai/news/codestral/

……

2.8 通义千问超越 GPT-4

6 月 20 日,斯坦福大学的大模型测评榜单 HELM MMLU 发布最新结果,斯坦福大学基础模型研究中心主任 Percy Liang 发文表示,阿里通义千问 Qwen2-72B 模型成为排名最高的开源大模型,性能超越 Llama3-70B 模型。


2.9 国内大模型价格战

5 月,Deepseek、智谱、豆包通义千问、百度等纷纷降价,大模型价格战进入白热化阶段降价后,1 块钱就能让大模型写 1 万条 350 个字的小红书,或者读三本《三国演义》,还有开发者表示送的 token 都用不完,充 50 块钱能用好几年。只要模型质量不降低,降价对于用户来说还是非常利好的,还能带动新一波的 AI 应用创业。

三、应用一瞥

3.1 应用开发:AI Studio

1)字节·扣子 Coze

https://www.coze.cn/home


2)Goole AI Studio

https://aistudio.google.com/app/prompts/new_chat

3)微软 Azure Studio

这有篇 ATA 教程:https://grow.alibaba-inc.com/course/4800016717248449官网:https://azure.microsoft.com/en-us/products/ai-studio

3.2 典型 AI Demo

部分 AI APP 示意


PC 端 web playground





百度 AI 图片助手


Kimi & 腾讯元宝

Kimi:号称一次性可以读 200 万字至 1,000 万字的文章

元宝:可支持单文档最长 1000 万字的超长文处理,能够一次性解析最多 50 个文件(单个文件<=100M)



AI 手机

Vivo 在 2023 年 11 月发布了蓝心大模型,Apple iOS18 后,Macbook 上,都会有端模型。

OPPO Reno12:

闭眼修复:

小布助手:

图/文生视频·可灵大模型

6 月,可灵大模型的文生视频功能在快影 App 开启内测,后续又上线图生视频和视频续写功能,不仅在国内掀起一波试用的热潮,还「馋哭」了一众外国网友。


延伸讨论

4.1 Sora 能代表物理世界吗?

1)对 Sora 的质疑

首先,Sora 定位自视很高,原标题是:“Video generation models as world simulators”但是,Yann LeCun 是不信的,顺便介绍了一波 Meta 自己的 JEPA 联合表征架构;JEPA 自己不是视频生成;

weibo 张俊林 大神于 2.27 日的文章,进行了更深度的讨论:

https://weibo.com/ttarticle/x/m/show/id/2309405005949600661553

另,如果 Sora 的数据中,采用游戏仿真器,进行了数据生成,并基于它们进行了训练,那么,这是间接地具备了一定的模拟能力。未来有一定可能性,或许可以通过结合不同技术,如 GPT-4 和 Sora,来互补各自的能力,共同构建出一个世界模型。

例如,Apple Vision Pro 加上 GPT-4 和 Sora 的组合可能会创造出一个用户可以自由体验不同世界的系统。图片/视频模型和 LLM 像是大脑的右脑和左脑,分别负责形象思维和抽象思考。共同实现对复杂世界的共同理解和生成。如下图:

2)Genie:“建模世界”的一种探索

另外,Google 发布的 Genie 也一定程度佐证了未来“物理世界模拟器”实现的可能性。

模型结构:

由三部分组成:1、Video Tokenizer:将原始视频帧转换为离散标记

2、Latent Action Model:用于推断每对帧之间的潜在动作

3、Dynamics Model:根据潜在动作和过去的帧标记,预测视频的下一帧

4.2 大模型为啥不善于做数学题?

几个原因如下:

1)早期 Tokenizer 对数字切分粒度问题

经常把连续的若干数字切在一起形成一个 Token,比如“13579”,可能被切成三个 Token ,“13”是一个,“57”是一个,“9”是一个 Token 从 LLama-1 开始,对数字做最细粒度的切分了,原文是这么说的:

2)输入 LLM 时,数字高低位顺序问题

数字计算,是从低位计算,逐步向高位进位计算的。这会产生两个问题:

a. 计算难度增加

但输入 LLM,通常是高位在前、低位在后;倒不是说这样不行,而是,增加了 LLM 做计算题的难度如果你按照“13579+24680=”顺序输入给 LLM,Next Token 就要求先输出计算结果的最高位,这意味着 LLM 必须在内部把完全正确的加法结果 38259 算完,而且得找地方存起来,然后再先输出高位 3,再输出次高位 8(这种类似想好了再说)….

b. 计算效率也不高

参考:https://www.zhihu.com/question/605567747/answer/3441552623以 56*123=6888 为例,每一次模型迭代,等同于 10 次小的迭代的相加:可以看出,前 5 次迭代,对于得到 6888 这个结果而言,没有直接帮助。那是否可以跳过这几次 infer 呢?跳过后,速度是变快了,但依然不会助于,提高计算复杂数学题的准度。

3)对应数位难以准确对齐

LLM 在做数学运算的时候,经常对不齐相应位置的数字,比如“13579+24680”,3 本来应该对齐 4,但是 LLM 经常把 3 对到 4 附近的数字,解决办法是:

1、加入位置提示(Hint)比如“13579+24680”,每个位置加入提示字符,形成“a1b3c5d7e9+a2b4c6d8e0”这种输入形式,相同位置数字有个共同的提示字符,这很可能利用了 Induction Head 的作用(我猜的),可以有效帮助 LLM 对齐数字。

2、对每个数字 Chunk 单独引入新的位置编码(Abacus Embedding)对于每个数字块,第一个字符引入位置编码 1,后续数字依次递增。这样,因为相同位的数字有相同的位置编码,所以有利于解决 LLM 数字对不齐的问题。如下图:

4)数字较长时,LLM 外推差

数学计算的特点是:

1、逻辑缜密,没有模糊的空间,答案是标准化的;这意味着,数理逻辑,不同于人们的 自然语言逻辑和惯性,所以 LLM 面对数学计算,泛化性会有边界,

2、问题空间 &解的空间,是天文数量级的;而人类语料(目前 GPT 训练语料,大多是人们日常活动/行为产生的语料),不可能覆盖到所有的长度、计算问题。由上,产生了一个子问题是:经由短序列数字训练的 GPT,不容易直接泛化到长序列的数字计算。

说人话就是:我们在训练 LLM 的时候,LLM 见过的最长的数字串长度是 10 位,但实际使用的时候,若给出 20 位长度的数字要求做加法,就容易算错俊林大神提到了 FIRE 和 abacus emb 两种位置编码,大致原理是:如果训练语料,只能是较短的数字,那么,我们位置编码,可以不从 1 开始呀。。。我从 51、67、98 开始,递增编码就是了,这样,我的位置编码的取值空间,是可以突破训练样本的限制的,至少能自己骗自己一把。这几种位置编码,下文详读。

5)大模型幻觉

GPT 生成自然语言,还有幻觉/错误率呢,更何况要求贼精确的数字?而且,生成自然语言,幻觉其实不易发现;但计算数学题,生成数值型答案,正确 vs 错误之间,没有模糊的空间。所以,模型生成错了,一眼就看出来了,进而得出“大模型不擅长数学题”的结论。简而言之,大模型算数学题,错就是错了,躲无可躲,就会给人留下差印象。

4.3 展望 AG

1)AI Agent 的 5 个层次

原文:https://cobusgreyling.substack.com/p/five-levels-of-ai-agents


2)对 AGI 审视

原文:UIUC 的综述:https://arxiv.org/pdf/2405.10313对 AGI Internal 的期待:

AGI 与外部物理世界的连接姿势:

AGI 在逐渐赶超人类:

五、AI 应用之我见

命题很大,我没有很体系化的思考,就几个碎片,暂抛出来:

1、AI 和搜索

有篇文章,不是取代的关系,未来会持续并存;而且,短期内,搜索占比依然是大头。纯 Online 应用中,目前看来,除了 AIGC/多模,那 GPT 跟搜索的关系,是最近的。这里有篇,讲述了两者相互渗透的关系:https://arxiv.org/abs/2407.001281、Search-for-LLM

2、LLM-for-Search

2、具身智能

具身智能,目前被 Robot 行业深度绑定一方面,中国是世界工业机器人装机量 top1,远超美国和日本,这体现了工业制造的实力;另一方面,很多具身智能是被“人形机器人”用的较多,LLM 作为 Robot 的大脑,发挥大模型规划推理的能力。上海 WAIC 大会上,也有很多机器人展台。如下图是 Tesla Optimus:

但坦白讲,人形机器人的使用价值,还没那么大;产业还在技术研发阶段。

3、AI+业务流程

现有业务框架内,本身有很多 SOP(Standard Operation Procedure)业务流程,直接把 LLM 嵌入到里面来,是比较现实的方案。一方面,LLM/AIGC 大模型,本身只是一个“点”,另一方面,不用大幅度改造太多原有的流程,风险最小。如果不是这样,而是为了 LLM,去创新新的架构、流程,那难度大得多,属于“以点带线/面”。大模型作为“点”,可以涌现井喷式的出现,但新架构出现不是一日之功。

4、Chat 对话,人机交互新模式

LLM 大模型的 next-token 输出形式,天然是有利于对话的。以至于,Chat 深深地跟大模型绑定,很多大模型底座,都会同时发布 xx-chat 版本。从传统的搜推来看,用户的交互轮数比较少,推荐是用户被动式的,搜索时用户虽然主动,但多次搜索之间用户没有上下文连贯感。

从互动交互的视角来看,大模型当做前置的意图理解、推理规划、多轮上下文融合,是 solid 的,毋庸置疑。如果落地没有收益,不是这几个技术定位有问题,而是在上层整理、场景选择层面不够准确,甚至只是缺少打磨而已。毕竟,我们做一个产品,急着要产出,耐心很少的。

5、手机 AI 化/端模型

类比原有的 Compute 发展,有超大的计算机/计算中心,也有较小的计算机,比如手机/PC 等。我个人觉得,LLM model size,也会走向两个阶段,反而不存在中间态。具体来讲,100B 以上的模型、10B 以下模型,会成为主流。10B 以下的模型,依然会需要:1、它们并不弱,具体请见微软 Phi 系列 model2、它们很被需要,比如端侧。LLM 走向手机端,更 AI Native,这本就是去年就有的概念,目前很多业界,手机厂商,已经在大肆 AI 化中。这里多说一嘴,手机端 AI,去年有很多,是 AIGC,即针对拍照照片,进行美化处理,此不赘述。那从今年开始,会出现很多,AI Native 的应用,这里面 GPT 主导,结合多模态理解。纯 UI 的模型,比如苹果的 Ferret 系列,已经有了。

6、内容生成

这里指的是,图片、视频、语音等,狭义的 AIGC。其实广义的 AIGC,是包括 GPT 文本生成的。回到这几种模态,我个人觉得,他们不同于 LLM:LLM 生成的本质,是“序列/组织”AIGC 生成的本质,就是“内容”,字面意思。虽然它们序列、二维、多维,但是内容。两者是两回事儿,分开看,就清晰多了。

AIGC 生成图片视频,在业务场景比较 solid,基本上是需求驱动,或者产出后可以直接落地,取得经济收益。做的工作,适合项目制,逐个项目、逐个需求、逐个场景。当然,在技术层面,很多技术栈是通用共用的。但从顶层看,我觉得未必强制用“一盘棋”去看,而是用“百花齐放”去看更合理些。每朵花的差异性,大于共性。也不是一个 model 能搞定的。

发布于: 刚刚阅读数: 5
用户头像

分享SPG,AGL,ACE和LLM在金融领域的进展。 2023-12-25 加入

还未添加个人简介

评论

发布
暂无评论
万字长文年中盘点,2024上半年大模型技术突破与应用展望_人工智能_可信AI进展_InfoQ写作社区