三类不同身份的“开发者”,在昇腾 CANN 的土壤上种下了繁荣之花

开发者苦“封闭生态”久矣。
在大模型行业快速演进的当下,一些厂商仍在继续搞围墙之内的“封闭游戏”,看似提升了用户体验,却在技术、数据和生态协同上筑起了高墙,不断抬高创新门槛,为开发者套上了隐形的枷锁。
同一时间,一场开放对抗封闭的运动也进入了高潮期。
就在鲲鹏昇腾开发者大会 2025 期间,坚持深度开放的昇腾异构计算架构 CANN,向外界公布了一组新数据:
深度贡献的开发者数量已经从 1000 多人迅速增长到 6000 多人,涉及操作系统、算子算法、整图优化、加速库等各个层面的创新;来自互联网、运营商、金融等领域的 30 多个伙伴,开发了 260 多个高性能算子,大幅提升了大模型在业务场景中的性能表现......
为何在宣布深度开放的短短两年时间里,昇腾 CANN 即已成为中国 AI 创新的新阵地?我们从三类开发者的故事中找到了答案。
01 以需求牵引生态:科大讯飞把业务问题变成生态能力
检验一个开放生态的价值,场景落地永远是最直观的指标。
身处创新第一线的企业开发者,起到了不可或缺的作用,他们从开放生态中汲取养分,又不断用实践经验反哺生态,通过深度融入生态、与场景紧密结合,赋予了昇腾 CANN 生态自我生长、自我造血的能力。
其中的代表就有科大讯飞。
科大讯飞副总裁、AI 工程院院长潘青华,将科大讯飞与昇腾平台的深度合作总结成了四个阶段:
第一个阶段是敢用,2023 年国内还没有超大规模集群的成熟方案时,科大讯飞和昇腾联合打造了国内首个自主创新的超大规模集群;
第二个阶段是真用,2023 年到 2024 年的一年时间里,科大讯飞在昇腾超大规模集群上训练了星火大模型,性能从开箱只有业界的 30%提升到了 90%,印证了自主创新算力完全可以支撑大模型研发达到世界领先水平;
第三个阶段是会用,科大讯飞和昇腾的联合攻关团队在 2024 年实现了多种大模型在昇腾平台上的长稳训练,断点续训的恢复时间从业界平均的 30 分钟,下降到了 5 分钟以内;
第四个阶段是用好,科大讯飞在 2025 年 3 月基于昇腾算力率先实现了 MoE 模型的大规模跨节点并行集群的推理,性能提升了 3 倍。
其中 CANN 作为昇腾 AI 的核心基础软件平台,搭起了 AI 框架与昇腾硬件的桥梁,是充分释放处理器极致性能的关键。针对 MoE 大模型训练场景的”卡脖子”难题,科大讯飞和昇腾进行了一场场联合攻坚。
在算子方面,双方联合开发和优化了 50+算子,科大讯飞自主开发的自定义关键算子就超过 10 个。其中包括优化了 MoE 特有的关键算子,让计算效率提升了 15%以上;对部分融合算子进行加速,端到端实现了 5%的提升。
针对不可忽视的通信问题,科大讯飞和昇腾团队通过采用多种通信掩藏的技术,将端到端通信压缩到了 20%以内,最终让星火 MoE 大模型的训练性能提升了 2 倍,进一步释放了昇腾在计算、带宽和通信上的潜力。
昇腾 CANN 也将在计算、内存、通信三个维度加速创新,其中包括超级算子 MLAPO、多重地址映射技术、NPUDirect 通信算法等等。科大讯飞和昇腾在真实场景中打磨出的核心能力,将开放给所有开发者。
确切的说,科大讯飞代表的是中国企业合作创新的群像,同类的“开发者“还包括智谱、字节跳动、面壁智能、蚂蚁金服、美团等 20 多家头部企业,作为 CANN 生态落地的关键合作者,一同重塑了 AI 产业的创新范式。
02 以技术筑牢生态:他们用工程化创新重构了性能边界
大模型应用是个系统工程,工程创新的价值同样不可小觑。
从单卡到集群,从算子到调度,从通信范式到内存布局,每一次性能的跃迁背后,都源自技术层面的极致打磨。正是这些“看不见的功夫”,让 AI 模型跑得起、跑得快、跑得稳,走向真实世界的每一个场景。
在昇腾 CANN 生态中,一个个擅长软硬件协同、系统调优、通信机制重构等“硬活儿”的技术团队,用工程创新撬动了生态演进。
比如清华系 AI 独角兽无问芯穹,基于 CANN 深度优化创新,有效降低了大模型推理的算力资源消耗。
2025 年是 AI 应用大规模落地的元年,当推理算力需求激增的背景下,算力成本控制已然成为大模型落地的关键。为了解决这个问题,无问芯穹与昇腾针对大模型推理集群部署中的通信开销展开了深度协同创新,通过全新的计算和通信重叠范式,对昇腾硬件的多元通信语义进行专项优化,单算子性能提升最高达 20%,有效降低了算力资源消耗。
比如 AI Infra 创业团队清昴智能,基于昇腾 CANN 构建起了从单卡效能到多卡集群的全局优化方案。
围绕很多企业遇到的性能释放不足问题,清昴智能通过基于 CANN 的专项优化,进行算子融合、调度策略改进、并行计算模式调整等等,显著提升了昇腾 Duo 卡的推理性能表现,让 Duo 卡也能跑起 DeepSeek 满血版大模型。同时构建了从单卡效能打磨到多卡集群调度优化的全链路方案,为 AIGC、自动驾驶等场景提供优质自主创新的选择。
再比如清华大学计图(Jittor)团队,围绕前沿大模型,基于 CANN 生态构建了自主创新的推理框架。
DeepSeek R1“出圈”后,清华大学计图团队迅速集结核心骨干分析适配方案,联合昇腾研发团队,在历经三个月、数十次架构迭代、数百次功能更新后,构建了 MoE 专用算子体系,采用 INT4 量化技术、MLA 矩阵吸收、多维度混合并行等技术,实现了性能与内存的双重突破,率先在昇腾单台 Atlas 800 服务器上部署了满血版 DeepSeek R1 模型。
对应的技术团队还有很多。
作为生态系统中的技术支点,他们不站在舞台中央,却用一行行代码、一次次迭代,为大模型应用打下了可落地、可扩展的技术基础。
从推理性能的每一次提升,到部署成本的一次次降低,这些工程创新不仅重构了模型能力的边界,不断拓展昇腾 CANN 生态的价值,让 AI 真正走进产业,走向现实。
03 以热爱点燃生态:两位教授刻画了昇腾开发者的群像
一个开放生态的繁荣,不仅需要聚集开发者的力量,还需要用生态驱动商业闭环,形成持续的创新动能。
这就要提到第三类开发者,他们从开放生态中汲取养分,又不断用实践经验反哺生态,通过深度融入生态、与场景紧密结合,赋予了昇腾生态自我生长、自我造血的能力。
昇腾 CANN 生态的繁荣,离不开每一位因热爱而加入的开发者。
他们不是“最亮的光”,却是一束束点亮中国 AI 未来的星火;他们可能不为人所熟知,却始终在关键的工程节点上默默耕耘。我们无法细细讲述 6000 位开发者的故事,但可以从两位教授身上看到他们的群像。
第一位是来自华南理工大学的陆璐教授。
2022 年刚接触昇腾 CANN 时,陆璐教授也曾感慨“不够亲和,用起来比较难受”。但不同于纯粹的吐槽,陆璐教授团队在了解了昇腾的软硬件体系后,开始逐步进行优化,让算子性能从 50%提升到了 100%,甚至在某些场景中从 200%提高到了 500%。
作为开源开放的忠实拥趸,陆璐教授并未止步于性能上的优化,希望通过开源项目帮助更多的开发者降低门槛,用更少的时间、更少的代码,实现更高的性能,最终和昇腾算子模板库 CATLASS 结下了不解之缘。
正如陆璐教授在鲲鹏昇腾开发者大会 2025 的演讲中所提到的:和国外友商对比,CATLASS 模板库在 FP32 精度下达到了 2.78 倍的加速效率,BF16 是 1.23 倍、FP16 是 1.17 倍、INT8 达到了 1.21 倍。并表示接下来会做进一步的迭代,计划开发 MoE 算力、通算融合算力、以及卷积类的算子。
第二位是西北工业大学的徐韬教授。
故事还要从 2020 年说起,西北工业大学成为首批加入“昇腾众智计划”的高校。徐韬教授迅速意识到了合作的价值:过去深度学习课程总是陷入“纸上谈兵”的困境,学生们只能对着理论公式空想;昇腾平台与资源池的引入,学生们可以在云端进行完整的建模、调参、部署等流程,真正实现“手脑并用”。
徐韬教授第一时间组建了项目小组,和学生一起打磨每一个算子,同时积极参加昇腾社区的高校挑战赛、社区论坛、布道师等活动,学生们在解决实际问题的过程中,系统地掌握从算法设计到硬件适配的全链条技能。
两个月前上线 Gitee 社区的 CANN-Ops 算子共建仓,是国内首个面向昇腾开发者的算子共建平台。其中徐韬教授团队已经自主开发并贡献了近 30 个高性能算子,成为国内最早向昇腾 CANN 平台提供多项核心支持的高校团队之一,也是首个在 CANN-Ops 算子仓库中完成算子合入的开发团队。
陆璐和徐韬团队所撬动的,不单单是算子开发效率的倍增,还是开发者之间交流经验、沉淀最佳实践、共建共创的平台。
算子的每一次被使用、被改写、被反馈,都将把个体的力量变成集体的势能,把工具的价值转化为生态的共振。生态,不只是技术堆叠,更是一群人共同选择走的路。
04 写在最后
从活跃在开源社区的一线开发者,到深耕底层优化的工程团队,再到探索技术边界的领军企业,昇腾 CANN 已成为中国开发者生态最活跃、技术迭代最迅猛的 AI 创新平台。
当不同背景与层级的开发者聚集在一起,当科研理论到产业应用的链条被打通,当全栈自主创新能力成为行业共识,当一个多元、开放、协同的 CANN 生态开出繁荣之花,将以前所未有的速度引领 AI 开发范式的变革,托举起中国在智能时代的关键竞争力。
评论