大模型选择指南：功能、参数和优化

2025-01-26
安徽
本文字数：2814 字
阅读完需：约 9 分钟

本文是《生成式 AI 学习笔记》的第九篇，也是《生成式 AI 实践笔记》的第二篇。之前我们探讨了生成式 AI 大模型的运行原理和应用场景，上一篇我们刚刚分享了如何在自己电脑上一键部署AI大模型。但大模型这么多，各种分类和名词让人眼花缭乱，该怎么选择呢？今天我们就来做个科普。

开头要说一下，今天我们是“授人以渔”，而不是“授人以鱼”。这篇文章主要是给大家介绍一些常见分类和概念，作为大家自行挑选大模型的入门指南，这是“渔”的部分。但 AI 大模型几乎是现今全球范围内最热门的技术领域，各大厂积极参与，隔几天就会有新技术和新产品出来。“鱼”太多了，我也挑不过来，大家看完这篇文章去挑自己喜欢的吧。

1. 功能分类

首先，我们根据功能对 AI 大模型做个基本分类。

1.1 文本生成（Text Generation）

文本生成是最常见也是用得最多的一种大模型，主要功能是生成连贯的文本，比如文章、对话、故事等。当前最热门的大模型大多属于这一类，例如 Meta 的 Llama，微软的 Phi，Google 的 Gemma，阿里的 Qwen 等。

1.2 文生图（Text-to-Image）/ 图生文（Image-to-Text）

顾名思义，这类模型可以根据文本生成图片，或者从图片解读出文本。最知名的就是 Stable Diffusion 和 OpenAI 的 DALL·E，国内也有很多大厂推出了同类产品。还有一些变体，如图文生图、图文生文，按字面理解即可。大家常说的多模态（Multimodal），基本就是指包含了图文和文本能力的模型。

1.3 语音生成与识别（Speech Generation & Recognition）

语音生成与识别包括语音转文本（ASR）或文本转语音（TTS），适用于语音交互类 AI 产品。比如语音助手，或者录音生成会议纪要的 AI 助手（打工人刚需）。比较知名的有 OpenAI 的 Whisper 等。

1.4 Embedding

这个名字直译过来叫“嵌入”，很多学术文章里需要写中文的时候会写“嵌入”，但这个说法理解起来比较奇怪。Embedding 模型的功能是将文本转换为向量，用于语义搜索、聚类、相似度计算等。在构建垂直领域的客服、知识库等的 AI 产品时，经常会用到 RAG 技术，需要把现有的文本素材库向量化，用于大模型做检索和提取。向量化这一步就会用到 Embedding 模型。常见的有 nomic-embed-text 等，规模不大，方便集成。当然也可以直接用 Llama 之类的模型做 Embedding，实际的开销和性能大家自己平衡吧。

1.5 文本理解与分类（Text Understanding & Classification）

文本分类（Text Classification）就是将文本分配到预定义的类别中，比如情感分析（如正面、负面、中性）、主题分类（如新闻分类为体育、科技、政治等）、意图识别（如用户查询分类为“购买”、“咨询”等）。大多数普通用户用不到这类模型，但在定制化 AI 应用时会非常有用。比较典型的是 Google 的 BERT，还有基于 BERT 的一系列衍生产品。类似的还有图像分类（Image Classification），比如识别图片里的人、车、动物等，这是自动驾驶的必修课。

1.6 其他

还有专门用于编程和数学的 Coder、Math 模型，大厂的主打产品基本都兼顾对话和 Coder、Math 了，选择小规模的模型时可能还要关注。除此之外还有决策（Decision Making）、推荐（Recommendation）等特定领域的模型，这里就不展开了，基本用到这些模型的大佬也不需要我来科普了。

2. 基座及定向优化

除了功能分类，我们还常看到 Base、Chat、Instruct 等分类方式，这些词也常出现在大模型的名字里。

Base： 未经特定任务微调的基础预训练模型，这是训练后最先被开发出来的，通常用于进一步微调。
Chat： 专门为对话场景优化，能够理解自然语言上下文，生成连贯且有意义的回复。这是大家最常见到的。
Instruct： 为执行指令而优化，比如回答问题、生成文本、翻译等，在连续对话方面可能不如 Chat。

3. 参数（Parameters ）和量化（Quantization）

挑选大模型时，参数和量化是两个常见的概念。

3.1 参数（Parameters ）

参数是模型内部的可调节变量，用于从输入数据中提取特征并生成输出。在神经网络中，参数通常表示为权重（weights）和偏置（biases），是模型的核心组成部分。看不懂没关系，知道一点就行，就是同等级的大模型，参数量越大效果越好，体积也越大。现在大模型的参数规模都是以 B（Billion，10 亿）为计量单位，比如 7B 就是 70 亿参数，14B 就是 140 亿参数。有些新出的模型会有 “采用更先进的架构和训练方法，7B 模型吊打别家 14B 模型” 之类的说法，实际效果大家根据需要多去测试吧。

3.2 量化（Quantization）

量化是一种通过降低数值精度来减少模型存储和计算复杂度的技术。量化将高精度的数值（如 32 位浮点数）转换为低精度的数值（如 8 位整数），减少模型的存储空间、内存占用和计算开销，同时尽量保持模型的性能。常见的量化精度有 FP32、FP16、INT8、INT4 等，数字越小，精度越低。同等参数规模的模型，量化精度越低，体积越低，存储和计算开销也越小，但效果可能略差一些。一般在笔记本电脑上做测试，最常用的还是 INT4，因为大了可能就跑不起来了。

4. GGUF 和 MLX

GGUF 和 MLX 是两种常见的模型格式，在用 LM Studio 和 Ollama 的时候经常会见到，但严格来说这两个不是同一个维度的概念。

4.1 GGUF（GPT-Generated Unified Format）

GGUF 是一种专为大语言模型设计的二进制文件格式，旨在优化模型的存储、加载和部署效率。它由 Georgi Gerganov（llama.cpp 的创始人）提出，是 GGML 格式的继任者，解决了 GGML 在灵活性、扩展性和兼容性方面的不足。

4.2 MLX（Machine Learning Accelerator）

MLX 是苹果公司推出的机器学习加速框架，专为 Apple Silicon 芯片（如 M1、M2、M3、M4）优化，旨在高效运行 AI 模型。MLX 结合了硬件加速和软件优化，为开发者提供了高性能的机器学习工具。

如果你用的是 M 系列芯片的 Mac，优先选择 MLX，否则就选更通用的 GGUF 吧。

结语

好了就先写到这里。希望这些不算严谨的名词解释，能让你挑选大模型的时候不再那么盲目。如果要做自己的 AI 应用，最好还是根据应用场景多实践、多测试。祝大家都能挑到自己喜欢的“鱼”。

《生成式 AI 学习笔记》系列文章

我将学习心得整理成《生成式 AI 学习笔记》系列文章发布，欢迎大家关注、点赞，与我一同成长。

也欢迎大家关注我的公众号 酱香饼不是葱油饼 ，获取更多技术交流与前沿资讯，期待与您在技术的世界里继续同行！

生成式 AI 运作原理系列

1. 生成式 AI 的基本操作：预测下一个 token（Next-token Prediction）

2. 真的不是靠猜吗？

为什么生成式 AI 的工作被称为“推理”而不是“预测”？

3. 可以靠猜变得更聪明吗？

多推理几步，生成式 AI 会变得更聪明吗？

生成式 AI 企业级应用系列

4. 智能推荐

大模型能让智能推荐更智能吗？

5. 知识管理

AI 大模型如何重新定义企业知识管理？

6. 编程助手

生成式 AI 重塑软件开发：从代码助手到开发伙伴

更多：市场分析，预测性维护

敬请期待

生成式 AI 实践笔记系列

7. 在自己电脑上运行 AI 大模型

如何在自己电脑上一键部署 AI 大模型

8. 挑选大模型都要看什么

【本文】大模型选择指南：功能、参数和优化

发布于: 刚刚阅读数: 5

原文链接:【http://xie.infoq.cn/article/efe00b9806aee2df7ff621e24】。

JustYan

关注

还未添加个人签名 2014-11-08 加入

程序员，架构师，产品经理，公众号：酱香饼不是葱油饼

发布

暂无评论

创作场景