AI 日课 @20230410：大语言模型是对本质知识的无损压缩

2023-04-12
上海
本文字数：1185 字
阅读完需：约 4 分钟

AI日课@20230410：大语言模型是对本质知识的无损压缩

20230329的AI日课介绍了特德.姜关于“ChatGPT 是全网文本的 JPEG 压缩”的观点，认为大模型的参数是对训练其网络的数据集（网页、书本、百科等承载人类知识和智慧的文本）的一个模糊性的“有损压缩”。今天看到另外两篇关于智慧压缩的文章：

智慧信息的压缩：模型智能的涌现之道

Compression for AGI

其来源是 Jack Rae （OpenAI 的团队负责人，主要研究大型语言模型和远程记忆。此前，他在 DeepMind 工作了 8 年，领导大型语言模型 LLM 研究组）的一次直播分享：

https://www.youtube.com/watch?v=dO4TPJkeaaU

他的观点是：大语言模型是一个无损压缩器。有启发的点包括：

为什么特德.姜认为“有损压缩”，而 Jack Rae 说的是“无损压缩”呢？原因在于他们描述的对象不一样。特德.姜认为 LLM 是对“全网文本”的“有损压缩”，也就是说 LLM 无法 1:1 复刻喂给它的训练数据，因此存在模糊性；而 Jack Rae 认为 LLM 要还原的对象不是原始的训练数据，而是对原始数据的“最小描述”，也就是这些文本背后的“本质”。
文章中是以中英翻译来说明“最小描述长度”这个概念的；我这里举一个更好理解的例子来说明。如果同事通过飞书给你发了一个含有 100w 个数字的 txt 文件，你打开这个超大的文本，里面的数字确实是这样的：1,2,3,4,5,...,1000000。你可能会直接回他一句：神经病啊，这不就是“1~100w 的所有自然数”吗？这个“1~100w 的所有自然数”就是对这个有着 100w 个数字的序列的“最小描述”（至少是一个“非常小的描述”），你甚至用“w”这个字符代替了“0000”。
就像现在常说的：“字越少，事越大”；描述越短，认识越本质。“最小描述长度”代表的是对“本质认知”的一种追求。牛顿之所以伟大，就是用“三大定律”描述了宏观世界的所有力学现象；爱因斯坦的光芒尽在“E=mc2”这个简短的公式之中。数学、物理课本上那些神人无不因为一个高度浓缩人类本质认知的公式而名垂千古。
ChatGPT 等大语言模型，要做的就是对蕴含在“全网文本”中“人类认知本质”做无损压缩，也就是掌握文本之后的规律、模式、抽象、本质。。。从而在此基础上，应对各种各样的问题、面临千奇百怪的任务，都能生成相应的回答，达到 AGI 的智能。
其中对这个大语言模型本身的描述，不是我们通常以为的是那 1750 亿个参数，因为这也是非常大的一个数据；而是初始化和训练这个网络的代码，这是一个长度更短、更本质的描述。
这个压缩的视角，可以不仅限于 LLM，AGI 可以采用其他“追求本质”的“有效描述”来达到对这个广阔世界的刻画，包括：
更好的架构。更好的架构，更接近本质。而这也是为什么好的架构，往往是简洁优美的。
规模。
其他工具。比如搜索引擎。工具中凝结着我们已有的认知，也是通向世界本质的途径。
看来“真理”值得永久的追求！

Jack Rae 的分享中还有一些不太明白的地方，需要细细琢磨。它值得反复品味，我觉得就像香农的信息论一样，触及世界的本质。

发布于: 刚刚阅读数: 2

原文链接:【http://xie.infoq.cn/article/cf41f6975fb942828f9e78259】。文章转载请联系作者。