AI 大模型入门 (一):什么是大模型?
一、大模型定义
狭义定义
特指 ChatGPT 等大语言模型(LLM),通过千亿级参数训练,具备文本生成、逻辑推理等通用能力。
广义定义
涵盖 CV/语音等领域的通用模型范式,演进路径:专用小模型 → 预训练+微调 → 大模型+人类对齐
核心价值
传统 AI 需为每个任务单独训练模型(如翻译模型、摘要模型),而大模型如同「瑞士军刀」,单模型应对多任务。
二、AI 技术分层架构
 
 关键差异对比:
 
 三、语言模型的五次进化
- 统计语言模型(1950s) 
基于词频预测,如同查字典写作文
- 神经语言模型(2013) 
RNN/LSTM 网络,实现上下文记忆
- 预训练模型(2018) 
BERT/GPT-1 开启「预训练+微调」范式
- 大模型萌芽(2020) 
GPT-3 展现零样本学习能力
- 人类对齐时代(2022) 
ChatGPT 通过 RLHF 技术理解人类意图
技术拐点:2017 年 Transformer 架构问世,突破长文本处理瓶颈。
四、核心概念
生成式 AI vs 决策式 AI
 
 AIGC 三大特征:
- 内容原创性(非简单拼接) 
- 多模态输出(图文/音视频) 
- 可控生成(通过提示词引导) 
五、技术生态
中国大模型「三梯队」格局:
通用底座
- 百度文心一言 
- 阿里通义千问 
- 深度求索 DeepSeek 
- 智谱 AI(ChatGLM 系列) 
垂直领域
- 医疗:腾讯觅影、医渡云 
- 法律:幂律智能、华宇元典 
- 金融:度小满轩辕、恒生 LightGPT 
大模型不是替代人类的「对手」,而是放大能力的「杠杆」








 
    
 
				 
				 
			


评论