DistilQwen2.5
0 人感兴趣 · 5 次引用
- 最新
- 推荐
【解决方案】DistilQwen2.5-DS3-0324 蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践
DistilQwen2.5-DS3-0324 系列中的模型在多个基准测试中表现突出,其32B模型效果甚至接近参数量接近其10倍的闭源大模型。DistilQwen2.5-DS3-0324 系列的发布,助力“大模型+快思考”的新模式,逐步成为解决推理难题的标准配置。
DistilQwen2.5-DS3-0324 发布:知识蒸馏 + 快思考 = 更高效解决推理难题
DistilQwen2.5-DS3-0324 系列模型引入快思考策略,显著提升推理速度,使得在资源受限的设备和边缘计算场景中,模型能够高效执行复杂任务。DistilQwen2.5-DS3-0324 系列发布,助力“大模型+快思考”的新模式。
【解决方案】DistilQwen2.5-R1 蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践
DistilQwen2.5-R1 系列以少量来自 DeepSeek-R1 的思维链蒸馏数据为基础,通过一系列创新的蒸馏策略,有效强化了小模型的深度思考能力。实验评估结果显示,DistilQwen2.5-R1系列中的多种小规模模型在各项基准测试中表现优异,性能显著超越了其他开源蒸馏模型。
DistilQwen2.5-R1 发布:知识蒸馏助推小模型深度思考
文章介绍了DistilQwen2.5-R1系列模型的开发与性能评估。通过知识蒸馏技术,该系列模型成功将大规模深度推理模型的知识迁移到小模型中,显著提升了计算效率和部署灵活性。
DistilQwen2.5 蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践
DistilQwen2.5是阿里云人工智能平台PAI推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始Qwen2.5模型有明显效果提升。