一手生态开放,一手技术突围,昇腾 CANN 成中国 AI 创新底座

今天,AI 技术发展呈指数级增长,而 AI 创新也逐渐走向更底层的算法创新。
一味追求超大模型规模、超高硬件算力已经不再是主流,通过底层算力架构和前沿算法创新,硬件性能得以更充分地释放、模型在实际应用中的性能实现暴涨。
一系列底层技术革新让 AI 创新加速涌入千行百业。
我们看到,行业更加聚焦 AI 在具体场景、具体应用中的实际表现,关注模型实际解决任务的效率和成本,模型如何从可用能用走向易用好用?
这样的行业大背景下,AI 开放生态的发展完善变得至关重要,AI 创新蓬勃发展、真正实现 AI 普惠,必然需要百花齐放而非一枝独秀。
一方面,开放生态能更好地激发创新,让技术可以更快速地迭代,大幅提升企业和开发者的创新效率;另一方面,开放生态可以更好地形成合力,事半功倍,加速 AI 普及,让整个市场蛋糕更快做大。
在今年的鲲鹏昇腾开发者大会上,华为昇腾秀出了诸多重磅技术升级,通过构建全栈开放生态、高能效的算力底座赋能开发者,这种加速 AI 涌向千行百业的开放模式具有极高行业价值:真正自主可控的中国 AI 创新基座,正愈发坚实。

作为昇腾 AI 核心软件平台的昇腾异构计算架构 CANN,无疑是此次大会的焦点,其分层开放策略,计算、通信、内存等领域的硬核技术迭代创新,都是推动 AI 开发效率与性能提升的关键。而诸多行业巨头基于昇腾 CANN 技术和生态实现的优秀案例,都证明其在实际应用场景中落地的巨大潜力。
昇腾 CANN,正为中国大模型创新提供更坚实的底层支撑,带来更多机遇。
一、深度开放夯实开发者武器库,兼顾效率性能,三大核心技术突破重构 AI 算力基因
创新与开放在 AI 新时代可以说是强绑定的两个关键词,唯有开放,才能更好地促进创新。
直观来看,昇腾 CANN 是连接昇腾硬件算力和上层 AI 应用的关键,是真正实现硬件高效使能 AI 的核心技术平台。当下,如何实现 AI 在具体场景、具体产品中高效落地已经成为行业焦点,结合自主可控需求的高涨,昇腾 CANN 的重要作用不言而喻。
自 2024 年宣布深度开放以来,昇腾 CANN 的开放深度、开放策略一直在持续迭代,华为昇腾计算业务总裁张迪煊在大会上提到,使能每一位创新者,激发创新潜能,就是昇腾 CANN 的核心理念。

▲华为昇腾计算业务总裁 张迪煊
2024 年 5 月,昇腾 AI 开发者峰会官宣了深度开放策略,支持开发者基于昇腾进行大模型原生创新;同年 7 月,昇腾 CANN 关键的高层组件开放代码到 Gitee 社区,客户和合作伙伴开始进行自主创新,一系列优秀案例加速涌现。
从能用到好用、易用,六年多时间里,昇腾 AI 生态稳步迭代,昇腾 CANN 也在不断进化。从 2023 年大模型爆发浪潮中构筑能力、厚积薄发,到 2024 年深度开放,帮助客户加速落地,再到 2025 年创新走向底层,行业对极致性能的需求越来越高,同时需求差异化愈发凸显,CANN 不断迎来新的挑战。
可以看到,CANN 的开放是与产业变化共同成长的,是有生命力的,是真正从产业中来到产业中去的,能够帮产业解决问题,带来价值的。
今天,从 Ascend C 算子编程语言、AOL 算子加速库、GE 图引擎、HCCL 集合通信库、毕昇编译器、Runtime 运行时到 Driver 驱动,昇腾 CANN 不断丰富高层、底层组件,充实开发者们的武器库,与 AI 创新扎向底层的大趋势齐头并进。
开放生态是否优秀、能否得到行业认可、形成良性闭环,有两个比较直观易懂的评价维度:一个是开放模式是否易用适用、一个是开放的东西到底够不够好用。
分层开放是昇腾 CANN 一直坚持的开放模式,可以更好地让开发者匹配场景需求,进而兼顾算子性能与开发效率。有丰富的参考样例支持匹配场景魔改,进而实现敏捷开发;底层原子级能力支持灵活组合,让开发者可以更好地挖掘硬件性能。

昇腾 CANN 针对不同技术层级的开发者推出了差异化开放策略。比如在算法创新层,开发者可基于业务场景进行”魔改式”创新;在系统优化层,CANN 开放了 190 多个底层接口,得以释放硬件的原子级能力。
在编译生态层,通过开放毕昇编译器的 AscendNPU IR 接口,开发者可以在接入 Triton 后直接使用 Python 语法编写高性能算子,底层硬件差异被完全抽象化,这可以说是开发范式的变革。
除了分层开放架构对开发效率的提升,昇腾 CANN 在核心技术层面的突破是 AI 算力重构、硬件性能充分释放的关键,计算、内存、通信可以说是实现这一目标“三驾马车”。

计算层面,针对 MoE 大模型训练场景的”卡脖子”难题,昇腾 CANN 推出了超级算子 MLAPO,将 MLA 前处理耗时从行业平均 109ms 压缩至 45ms,在金融风控模型、广告推荐系统中实现了 20%以上的端到端性能提升,打破 Transformer 架构的算力瓶颈。
内存层面,面对动态 shape 场景的”内存碎片化”痼疾,CANN 研发的多重地址映射技术可以实现内存碎片的自动化拼接利用,让京东商品搜索、腾讯短视频推荐等业务场景的内存利用率提升了 20%以上,突破了单卡可承载并发请求量行业极限。
在分布式训练领域,CANN 打造的 NPUDirect 通信算法将传统 RDMA 通信所需的 3 对同步精简为 1 次原子操作,让科大讯飞语音大模型的跨机通信时延下降了 90%,走通了万卡级分布式训练可行性路径。
值得注意的是,技术领先的基础是架构层面的领先,昇腾 NPU+昇腾 CANN 的模式彻底打破了海外主流算力平台的独大,在效率、成本上都实现了快速看齐甚至是超越,这是中国自主可控 AI 算力架构底座的底气所在。
可以看到,三个领域的核心技术突破形成的协同效应,一方面实现了单点性能的指数级提升,同时构建起了“芯片级优化+系统级调度+集群级协同”的全栈能力,AI 算力技术正式迈入”原子级精准调优”的时代。
二、30+产学伙伴入局,中国智算拥抱昇腾 AI 生态,海量 AI 底层创新涌现
昇腾 CANN 已经为行业搭好舞台,随着深度开放策略的逐步深化,各路行业头部企业、优秀开发者以及高校团队都亮出了诸多亮眼的创新成果。自主可控的中国 AI 底层创新所涌现出的巨大潜力,令人欣喜。
从巨头到创企,从高校到个人,我们看到昇腾 CANN 正在诸多领域加速 AI 创新的涌现。
比如科大讯飞的讯飞星火大模型 X1 就基于 Ascend C 进行了极致软硬协同优化,双方团队针对诸多关键算子进行了共创共研,性能收益十分显著。
科大讯飞副总裁、AI 工程院院长潘青华提到,讯飞和昇腾的结缘可以追溯到 2019 年,讯飞使用昇腾从敢用、真用、会用到用好走过了四个阶段,今年 3 月,讯飞基于昇腾算力率先实现了 MoE 模型大规模跨节点并行集群的推理,整个推理的性能提升了 3 倍。
作为 AI Infra 创企的无问芯穹也与昇腾一起,基于 CANN 进行深度优化创新,针对大模型推理集群部署中的通信开销问题进行技术攻关,实现单算子性能提升 20%,显著降低了算力资源消耗。
可以看到,如今算法和应用的创新已经从单点创新变成了软硬协同的系统性创新,昇腾与企业之间的合作就更为重要,算法和应用对于硬件的需求可以被更早的传递。AI 算法应用可以跑的更稳、跑的更快,CANN 正帮助企业以更低成本、更高性能加速 AI 应用落地。
在高校科研领域,清华大学计图团队联合昇腾研发的 MoE 专用算子体系,通过调用 aclGraph 模型调度接口与 INT4 量化技术,将 DeepSeek-R1 模型的推理时延降低 50%,验证了原子能力组合创新的巨大潜力。

西北工业大学软件学院副教授徐韬团队基于 CANN 平台构建垂直模型,通过多模态感知技术对抑郁症患者进行初筛,整个系统目前已经部署到西安交大第一附属医院。
功能足够强大、生态优秀,同时自主可控,这是徐韬教授团队最看重三点,也是昇腾 CANN 的优势所在。
华南理工大学计算机科学与工程学院教授、博士生导师陆璐提到,他们从 2022 年就开始了与华为的合作,他们希望能在国内平台上“把跑不起来的应用跑起来”,达到更好的性能。

▲华南理工大学计算机科学与工程学院教授、博士生导师陆璐
在探索中他们发现,只要熟悉昇腾编程平台,了解其体系架构,经过不断优化,性能可以从 50%提升到 100%,甚至在某些应用场景达到 200%到 500%。
值得一提的是,高校科研成果可以与昇腾 CANN 生态融合,进一步促进双方的共同成长,给产业带来更大价值。
比如陆教授团队参与开源的模板库就可以提升开发者的开发效率,同时,团队开发的算子以及编译优化的工具可以直接嵌入到 CANN 中,提升昇腾基础软件库的性能。
我们可以看到,昇腾 CANN 平台是一个开放性平台,同时也是一个成长性平台,只有产学界各方加入到生态当中,共同繁荣生态圈,才能使其更好的进步。
除了与企业和高校碰撞出火花,昇腾 CANN 同样给个人优秀开发者带来了巨大价值和影响。
天津理工大学电气工程与自动化学院人工智能专业 2022 级学生王富平从 2023 年就开始参加昇腾 AI 创新大赛,随后一直扎根昇腾 AI 技术中,在昇腾 CANN 异构计算架构等领域都进行了研究探索,广泛参与各类创新大赛并取得创新成果。

▲王富平
王富平也成为了首届“求实创新班”成员,天津市首位华为开发者布道师。昇腾 AI 让诸多优秀个人开发者有机会接触最前沿的技术和知识,在实现个人价值的同时贡献更多社会价值,昇腾 CANN 生态也在诸多优秀开发者的支持下快速成长。
从产业、科研到个人,昇腾 CANN 给中国科技带来的影响必将是深远的。
目前,昇腾已经联合互联网大厂、运营商、大模型厂商等 30 多个客户伙伴创新孵化出 260 多个高性能算子,覆盖了主流 AI 场景,平均整网性能提升超过 10%,这无疑是技术创新和商业落地的双重突破。
与此同时,昇腾 CANN 社区已经上线了超过 15 个 HCCL 通信算法及 API。通信领域昇腾联合 10 多个客户伙伴实现了平均 50%以上的通信效率提升。
从硬件厂商到模型厂商,从底层算子算法创新到上层训推平台创新,从高校个人到科研团队,昇腾 CANN 创新生态的深度广度都在快速拓展,中国智算产业中坚力量悉数到场。
三、昇腾 CANN 跑出“中国速度”,从技术到商业生态闭环,为 AI 自主创新打牢基建
今天,广大企业开发者和个人开发者纷纷将创新成果进行分享,为昇腾生态不断添砖加瓦,中国 AI 创新的共赢故事,正在各个行业各个领域开花结果,CANN 给产业带来的价值正愈发凸显。
根据昇腾官方数据,6 年来,有超过 60 万开发者了解 CANN、使用 CANN、赋予 CANN 创新活力,在昇腾 CANN 持续推进开放,以及产业各方开发者、企业积极参与之下,CANN 生态正在快速成长。目前 CANN 的算子认证开发者已经超过了 6000 人。

从整网性能和通信效率显著提升,到大模型推理性能的暴涨,再到构筑覆盖模型开发、训练加速、部署优化的全链路技术生态,CANN 正在加速使能多维度创新。
很多人将昇腾 CANN 比作“中国版 CUDA”,但实际上,CANN 用 6 年时间就走完了 CUDA 十几年的路,这本身已经是一个奇迹。如今基于昇腾 NPU+昇腾 CANN 技术生态所能实现的 AI 应用性能已经能够看齐甚至超越 CUDA,这更是难能可贵的。
而这远不是终点,相比 CUDA,昇腾 CANN 生态显然在开放的广度、深度上都更进一步。作为后来者、挑战者的昇腾,并不会像 CUDA 一样构建技术壁垒,而是会始终坚持开放,昇腾希望给开发者提供一个更加自由的平台,真正给中国 AI 创新应用底层铺路筑基,释放中国 AI 创新的巨大潜力。
昇腾 CANN 正在用一种“基础层开放+应用层共创”的双轮驱动模式,推动国产 AI 产业链的协同进化,形成从技术突破到商业转化的生态闭环。
如今有越来越多的企业在昇腾社区上获取到有价值的技术,进一步加速自身的商业成功,也有越来越多的高校学者、研究团队在昇腾 CANN 生态中取得科研成就,进一步实现社会价值。
正如陆璐教授所说,他们基于昇腾平台的研究得到了社会的认可,实现了更好的效果,帮助国内平台真正做到了自主创新,提升了我国的算力水平,这是他们团队获得最大成就感的地方。
昇腾 CANN 正不断加速基础软件算法创新,促进多样性计算产业发展和生态繁荣,如今的 CANN 正在成为中国开发者生态最活跃、技术迭代最迅猛的 AI 创新平台。
与此同时,昇腾 CANN 也基于昇腾开放平台提供了完善的人才培养机制,从教学、培训、研究到各类举办各类赛事,顶级 AI 创新人才不断涌现。
对于中国 AI 产业来说,昇腾 AI 生态是实现自立自强的坚强依靠,也是国内科技企业去构建自主创新的 AI 基础设施的必然选择。
结语:AI 底层创新突围,开放生态+技术创新是必由之路
可以看到,从分层开放的生态架构到计算、内存、通信等领域的一系列底层技术突破,昇腾 CANN 一手开放、一手技术,正给产业带来 AI 创新的新范式。
面对未来的 AI 新时代,技术的变革不断加速、生态体系的构建越来越重要,CANN 正成为中国优秀开发者们越来越熟悉、越来越认可的“伙伴”,从可用能用到易用好用,逐渐走向舞台中央,属于昇腾 CANN 的时代,正拉开帷幕。
这不仅是一场硬件算力的革命,更是一场开发者与技术的共同进化。昇腾 CANN 正帮助中国 AI 产业中的企业和开发者不断突破底层算法创新的瓶颈,释放潜力,推动中国 AI 发展从追赶走向引领。
作者:智东西
评论