AI 大模型入门（一）：什么是大模型？

作者：测试人

2025-05-06
北京
本文字数：514 字
阅读完需：约 2 分钟

一、大模型定义

狭义定义

特指 ChatGPT 等大语言模型（LLM），通过千亿级参数训练，具备文本生成、逻辑推理等通用能力。

广义定义

涵盖 CV/语音等领域的通用模型范式，演进路径：专用小模型 → 预训练+微调 → 大模型+人类对齐

核心价值

传统 AI 需为每个任务单独训练模型（如翻译模型、摘要模型），而大模型如同「瑞士军刀」，单模型应对多任务。

二、AI 技术分层架构

关键差异对比：

三、语言模型的五次进化

统计语言模型（1950s）

基于词频预测，如同查字典写作文

神经语言模型（2013）

RNN/LSTM 网络，实现上下文记忆

预训练模型（2018）

BERT/GPT-1 开启「预训练+微调」范式

大模型萌芽（2020）

GPT-3 展现零样本学习能力

人类对齐时代（2022）

ChatGPT 通过 RLHF 技术理解人类意图

技术拐点：2017 年 Transformer 架构问世，突破长文本处理瓶颈。

四、核心概念

生成式 AI vs 决策式 AI

AIGC 三大特征：

内容原创性（非简单拼接）
多模态输出（图文/音视频）
可控生成（通过提示词引导）

五、技术生态

中国大模型「三梯队」格局：

通用底座

百度文心一言
阿里通义千问
深度求索 DeepSeek
智谱 AI（ChatGLM 系列）

垂直领域

医疗：腾讯觅影、医渡云
法律：幂律智能、华宇元典
金融：度小满轩辕、恒生 LightGPT

大模型不是替代人类的「对手」，而是放大能力的「杠杆」

发布于: 8 小时前阅读数: 8

测试人

关注

专注于软件测试开发 2022-08-29 加入

霍格沃兹测试开发学社，测试人社区：https://ceshiren.com/t/topic/22284

发布

暂无评论

创作场景

AI 大模型入门 （一）：什么是大模型？