JT-Math：大语言模型高级数学推理的多阶段框架

作者：qife

2025-08-03
福建
本文字数：555 字
阅读完需：约 2 分钟

摘要

数学推理是通用人工智能的核心能力之一，也是评估大语言模型（LLM）性能的关键基准。尽管现有先进模型展现出潜力，但在需要深度概念理解和多步推理的复杂问题中仍存在不足。为解决这一挑战，本文提出 JT-Math-8B——一个包含基础版、指导版和思考版的开源模型系列，其基于系统化的多阶段优化框架构建。

预训练数据通过专用管道筛选，形成包含 2100 亿 token 的高质量语料库，并采用模型验证确保数据多样性与质量。

指导模型通过监督微调（SFT）和基于 GRPO 的强化学习方法优化，专注于生成简洁的直接答案。
思考模型采用长链思维（Long CoT）策略，结合 SFT 与多阶段强化学习课程，逐步提升任务难度和上下文长度（最高支持 32K token）。

实验表明，JT-Math-8B 在同规模开源模型中达到最优性能，超越某机构的 O1-mini 和 GPT-4o 等知名模型，并在竞赛级数学任务中表现卓越。

技术亮点

数据管道：模型驱动的数据验证流程，确保预训练语料的数学相关性与多样性。
多阶段 RL 课程：分阶段增加任务复杂度与上下文长度，强化模型对长序列推理的适应性。
开源模型系列：提供基础、指导、思考三个版本，适配不同应用场景需求。

性能对比

JT-Math-8B 在 MATH、AMC 等数学基准测试中显著优于同类模型，尤其在多步证明和符号运算任务中准确率提升 15%以上。更多精彩内容请关注我的个人公众号公众号（办公 AI 智能小助手）公众号二维码

办公AI智能小助手

发布于: 刚刚阅读数: 2

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

发布

暂无评论

创作场景

JT-Math：大语言模型高级数学推理的多阶段框架

摘要

技术亮点

性能对比

qife

评论