大模型发展的前景与挑战 主赛道:技术人的 2023 总结
大模型(LLM)是指具有巨大的参数量、数据规模以及复杂计算结构的机器学习模型,拥有的参数量可达百亿,甚至千亿。构建模型的主要目的是为了提高模型的表达能力以及预测性能,能够处理更加复杂的任务和数据。应用场景十分广泛,几乎在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等,是未来人工智能发展的重要方向和核心技术。
大模型应用
根据企业的应用场景,可以分为下面几类:
1、生成类应用
Codex,以性能闻名,是 OpenAI 开发的一种语言模型,可以根据问题描述等自然语言提示生成代码,支持多种语言并且可以使用自然语言以及数十亿行代码进行训练,GitHub Copilot 其实就是依赖的 Codex。
CodeT5,基于谷歌 T5 模型架构的预训练编码器-解码器模型,用于代码理解和生成。它利用了代码中的标识符信息,提出一个新颖的标识符感知的预训练目标,使模型能够区分和恢复被遮盖的标识符。此外,它可以利用代码和注释之间的双模态数据,进行双向生成训练,以此提高自然语言和编程语言之间的对齐。
Amazon CodeWhisperer,一个用于代码生成、参考跟踪、代码安全检测的模型,其经过数十亿行代码的训练,根据评论或者现有代码实时生成从代码片段到全函数的代码建议。这个模型我在工作中经常使用,可以在 VS Code 搜索 Amazon CodeWhisperer 或者 AWS Toolkit ,然后 install 就可以使用。
GPT4,这个大家都熟知的一个模型,OpenAI 为聊天机器人 ChatGPT 发布的语言模型,于 2023 年 3 月 14 发布 GPT-4。它可以根据输入的文本,快速生成连贯且具有逻辑性的文本,并且不局限于文本处理,可以与其他模态数据(比如图像)进行交互。
2、决策类应用
AI Agent,提供智能决策支持的“超能力者”,通过大模型和数据驱动的方法,构建自动化的业务流程决策 AI Agent,帮助企业快速应对新场景、新任务,提高管理效率和数据处理能力。通过大模型和数据驱动的方法,构建自动化的业务流程决策 AI Agent,帮助企业快速应对新场景、新任务。
Kyligence Copilot,AI 数智助理,是大模型技术与数据分析的结合的典范。它的核心价值在于其快速、精确的数据处理能力,以及能够提供高度个性化的业务洞察。这款 AI 数智助理的设计充分体现了当前数据分析技术的前沿进展,特别是在处理大数据和复杂数据集方面的能力。
3、多模态应用
多模态目前主要指的是文本图像处理。
Stable Diffusion,一个代码、数据、模型完全开源的图像生成模型,基于 Latent Diffusion Model(LDM)的文转图 AI 模型,根据提示词的描述以及其他的配置生成高质量、高分辨率的图像,运行时将“成像过程”分离成“扩散过程”,从有“噪音”开始,到最后完全么有噪音,具有较强的稳定性和可控性。并且它还可以修复损坏的图像,如今许多设计师都用它来生成素材。它是通过逐渐增大学习率来实现,适用于在训练过程中存在梯度抖动、训练过程不稳定的情况。
Midjourney,一款基于 Discord 社区上的 AI 绘图创作工具,通过巨量的图像数据进行训练,具有强大的绘画能力。它可以理解用户输入的文本信息,在其图像数据中寻找类似的元素特征,生成用户需求的素材。它根据对梯度进行平滑处理实现,适用于模型比较复杂、训练时间较长的情况。
国内大模型
国内的大模型目前大概有 188 个,此数据来源于:https://github.com/wgwang/LLMs-In-China ,查看所有可点击链接查看所有,这里只展示 10 个,排名不分先后顺序,能力的其实也都是卧龙凤雏。
大模型的测评有很多,据 SuperCLUE 最新一期(2023.11)中文通用大模型榜单排名显示,目前排在前三位的分别是百度的文心一言、月之暗画的 Moonshot、零一万物的 Yi-34B-Chat。数据来源于:https://www.superclueai.com,目前只排到了前 16 名。
国外大模型
国外大模型层出不穷,国外的超大规模预训练模型起步于 2018 年,并在 2021 年处于百花绽放阶段。这里列举了国外 17 个大模型,数据来源于:https://github.com/wgwang/LLMs-In-China ,最出名的莫过于 OpenAI 的 ChatGPT,目前最强的版本为 GPT-4,具有超强的多模态功能,深受开发者的喜欢
大模型发展前景
个人认为大模型应用领域将会不断扩大,比如刚开始大模型应用于计算机视觉、自然语言等领域,之后便进军医疗、军事、金融、工业等领域,这些领域的需求也越来越大,通过处理海量数据来完成复杂的任务。技术手段也会不断创新和改进,使用更加高效的算法、逻辑性更强的计算结构等,并且硬件的设备的性能也会大幅度的提升。大模型也会与云计算、边缘计算等技术充分结合,给大模型应用提供给更好的支持和保障,稳定性得到提升。将大模型部署在云端,利用云端服务的优势,高效的处理数据,并且还可降低模型成本。
大模型发展的挑战
大模型的发展一定是充满各种挑战,它不仅需要硬件设备支持,还有软件、巨大数据参数以及强大的计算资源,所以不论要投入大量的金钱成本,还需要更多的时间。数据质量和标注也是非常重要的,模型训练需要大量的数据进行标注,标注数据需要大量人工进行干涉,所以人工成本高,并且实现自动标注难度也很大。数据的可靠性,在进行模型训练需要对数据进行严格的测试和验证,因为参数可达百亿、千亿,所以保证大模型的稳定性也是重中之重。
最后
大模型目前应用给人类带来了许多便利,大多数公司已经都拥有自己的模型,并且可以定制化训练达到自己的需求。未来要面临着更多的问题,大模型需要不断突破技术枷锁,提高大模型的性能和可靠性,这样才能够实现低成本、更加高效灵活的应用。
版权声明: 本文为 InfoQ 作者【不叫猫先生】的原创文章。
原文链接:【http://xie.infoq.cn/article/abb5a2cb9e2784cd1d3a3c592】。文章转载请联系作者。
评论