大模型发展的前景与挑战主赛道：技术人的 2023 总结

2023-12-11
北京
本文字数：2187 字
阅读完需：约 7 分钟

大模型（LLM）是指具有巨大的参数量、数据规模以及复杂计算结构的机器学习模型，拥有的参数量可达百亿，甚至千亿。构建模型的主要目的是为了提高模型的表达能力以及预测性能，能够处理更加复杂的任务和数据。应用场景十分广泛，几乎在各种领域都有广泛的应用，包括自然语言处理、计算机视觉、语音识别和推荐系统等，是未来人工智能发展的重要方向和核心技术。

大模型应用

根据企业的应用场景，可以分为下面几类：

1、生成类应用

Codex，以性能闻名，是 OpenAI 开发的一种语言模型，可以根据问题描述等自然语言提示生成代码，支持多种语言并且可以使用自然语言以及数十亿行代码进行训练，GitHub Copilot 其实就是依赖的 Codex。

CodeT5，基于谷歌 T5 模型架构的预训练编码器-解码器模型，用于代码理解和生成。它利用了代码中的标识符信息，提出一个新颖的标识符感知的预训练目标，使模型能够区分和恢复被遮盖的标识符。此外，它可以利用代码和注释之间的双模态数据，进行双向生成训练，以此提高自然语言和编程语言之间的对齐。

Amazon CodeWhisperer，一个用于代码生成、参考跟踪、代码安全检测的模型，其经过数十亿行代码的训练，根据评论或者现有代码实时生成从代码片段到全函数的代码建议。这个模型我在工作中经常使用，可以在 VS Code 搜索 Amazon CodeWhisperer 或者 AWS Toolkit ，然后 install 就可以使用。

GPT4，这个大家都熟知的一个模型，OpenAI 为聊天机器人 ChatGPT 发布的语言模型，于 2023 年 3 月 14 发布 GPT-4。它可以根据输入的文本，快速生成连贯且具有逻辑性的文本，并且不局限于文本处理，可以与其他模态数据（比如图像）进行交互。

2、决策类应用

AI Agent，提供智能决策支持的“超能力者”，通过大模型和数据驱动的方法，构建自动化的业务流程决策 AI Agent，帮助企业快速应对新场景、新任务，提高管理效率和数据处理能力。通过大模型和数据驱动的方法，构建自动化的业务流程决策 AI Agent，帮助企业快速应对新场景、新任务。

Kyligence Copilot，AI 数智助理，是大模型技术与数据分析的结合的典范。它的核心价值在于其快速、精确的数据处理能力，以及能够提供高度个性化的业务洞察。这款 AI 数智助理的设计充分体现了当前数据分析技术的前沿进展，特别是在处理大数据和复杂数据集方面的能力。

3、多模态应用

多模态目前主要指的是文本图像处理。

Stable Diffusion，一个代码、数据、模型完全开源的图像生成模型，基于 Latent Diffusion Model（LDM）的文转图 AI 模型，根据提示词的描述以及其他的配置生成高质量、高分辨率的图像，运行时将“成像过程”分离成“扩散过程”，从有“噪音”开始，到最后完全么有噪音，具有较强的稳定性和可控性。并且它还可以修复损坏的图像，如今许多设计师都用它来生成素材。它是通过逐渐增大学习率来实现，适用于在训练过程中存在梯度抖动、训练过程不稳定的情况。

Midjourney，一款基于 Discord 社区上的 AI 绘图创作工具，通过巨量的图像数据进行训练，具有强大的绘画能力。它可以理解用户输入的文本信息，在其图像数据中寻找类似的元素特征，生成用户需求的素材。它根据对梯度进行平滑处理实现，适用于模型比较复杂、训练时间较长的情况。

国内大模型

国内的大模型目前大概有 188 个，此数据来源于：https://github.com/wgwang/LLMs-In-China ，查看所有可点击链接查看所有，这里只展示 10 个，排名不分先后顺序，能力的其实也都是卧龙凤雏。

大模型的测评有很多，据 SuperCLUE 最新一期（2023.11）中文通用大模型榜单排名显示，目前排在前三位的分别是百度的文心一言、月之暗画的 Moonshot、零一万物的 Yi-34B-Chat。数据来源于：https://www.superclueai.com，目前只排到了前 16 名。

国外大模型

国外大模型层出不穷，国外的超大规模预训练模型起步于 2018 年，并在 2021 年处于百花绽放阶段。这里列举了国外 17 个大模型，数据来源于：https://github.com/wgwang/LLMs-In-China ，最出名的莫过于 OpenAI 的 ChatGPT，目前最强的版本为 GPT-4，具有超强的多模态功能，深受开发者的喜欢

大模型发展前景

个人认为大模型应用领域将会不断扩大，比如刚开始大模型应用于计算机视觉、自然语言等领域，之后便进军医疗、军事、金融、工业等领域，这些领域的需求也越来越大，通过处理海量数据来完成复杂的任务。技术手段也会不断创新和改进，使用更加高效的算法、逻辑性更强的计算结构等，并且硬件的设备的性能也会大幅度的提升。大模型也会与云计算、边缘计算等技术充分结合，给大模型应用提供给更好的支持和保障，稳定性得到提升。将大模型部署在云端，利用云端服务的优势，高效的处理数据，并且还可降低模型成本。

大模型发展的挑战

大模型的发展一定是充满各种挑战，它不仅需要硬件设备支持，还有软件、巨大数据参数以及强大的计算资源，所以不论要投入大量的金钱成本，还需要更多的时间。数据质量和标注也是非常重要的，模型训练需要大量的数据进行标注，标注数据需要大量人工进行干涉，所以人工成本高，并且实现自动标注难度也很大。数据的可靠性，在进行模型训练需要对数据进行严格的测试和验证，因为参数可达百亿、千亿，所以保证大模型的稳定性也是重中之重。

最后

大模型目前应用给人类带来了许多便利，大多数公司已经都拥有自己的模型，并且可以定制化训练达到自己的需求。未来要面临着更多的问题，大模型需要不断突破技术枷锁，提高大模型的性能和可靠性，这样才能够实现低成本、更加高效灵活的应用。

发布于: 刚刚阅读数: 4

原文链接:【http://xie.infoq.cn/article/abb5a2cb9e2784cd1d3a3c592】。文章转载请联系作者。

不叫猫先生

关注

代码改变世界 2022-10-18 加入

前端领域优质创作者、阿里云专家博主，专注于前端各领域技术，共同学习共同进步，一起加油呀！

发布

暂无评论

创作场景

大模型发展的前景与挑战 主赛道：技术人的 2023 总结