写点什么

AI 大模型入门 (一):什么是大模型?

  • 2025-07-17
    黑龙江
  • 本文字数:522 字

    阅读完需:约 2 分钟

一、大模型定义

狭义定义

特指 ChatGPT 等大语言模型(LLM),通过千亿级参数训练,具备文本生成、逻辑推理等通用能力。

广义定义

涵盖 CV/语音等领域的通用模型范式,演进路径:专用小模型 → 预训练+微调 → 大模型+人类对齐

核心价值

传统 AI 需为每个任务单独训练模型(如翻译模型、摘要模型),而大模型如同「瑞士军刀」,单模型应对多任务。

二、AI 技术分层架构

关键差异对比:


三、语言模型的五次进化

1. 统计语言模型(1950s)

基于词频预测,如同查字典写作文

2. 神经语言模型(2013)

RNN/LSTM 网络,实现上下文记忆

3. 预训练模型(2018)

BERT/GPT-1 开启「预训练+微调」范式

4. 大模型萌芽(2020)

GPT-3 展现零样本学习能力

5. 人类对齐时代(2022)

ChatGPT 通过 RLHF 技术理解人类意图

技术拐点:2017 年 Transformer 架构问世,突破长文本处理瓶颈。

四、核心概念

生成式 AI vs 决策式 AI

AIGC 三大特征:

  1. 内容原创性(非简单拼接)

  2. 多模态输出(图文/音视频)

  3. 可控生成(通过提示词引导)

五、技术生态

中国大模型「三梯队」格局:

通用底座

  • 百度文心一言

  • 阿里通义千问

  • 深度求索 DeepSeek

  • 智谱 AI(ChatGLM 系列)

垂直领域

  • 医疗:腾讯觅影、医渡云

  • 法律:幂律智能、华宇元典

  • 金融:度小满轩辕、恒生 LightGPT

大模型不是替代人类的「对手」,而是放大能力的「杠杆」

用户头像

社区:ceshiren.com 微信:ceshiren2023 2022-08-29 加入

微信公众号:霍格沃兹测试开发 提供性能测试、自动化测试、测试开发等资料、实事更新一线互联网大厂测试岗位内推需求,共享测试行业动态及资讯,更可零距离接触众多业内大佬

评论

发布
暂无评论
AI大模型入门 (一):什么是大模型?_测吧(北京)科技有限公司_InfoQ写作社区