腾讯云李力：构建稳定安全的基础设施，助力大模型应用落地

2025-04-21
湖北
本文字数：1267 字
阅读完需：约 4 分钟

在 2025 腾讯全球数字生态大会成都峰会上，腾讯云副总裁李力表示，腾讯云用云原生、同源同构、场景驱动的智算平台，帮助产业突破算力瓶颈，助力产业加速释放 AI 生产力。腾讯云构建了业界唯一的全球统一基础设施，其高并发、柔性、可扩展等基础特性，在 AI 时代形成独特的价值优势；基于腾讯云原生的最佳实践，无论是公有云、混合云还是专有云，AI 都可以享受和云一致的能力和稳定性。

目前，腾讯云智算已为 90%以上的国内头部大模型企业提供服务，在互联网企业、大模型厂商、金融行业、政企行业、AI 开发等多个场景逐步深度应用。

腾讯云副总裁李力

李力介绍说，腾讯云在公有云、专有云和分布式云上始终坚持采用同一套代码，同源同构是腾讯云一直以来的技术坚持，也是腾讯云产品的独特优势。在云平台普遍追求功能复杂度的时代，腾讯云坚持自研，对海量高并发、柔性、可扩展等稳定性能力持续投入。如今 AI 和大模型时代到来，这些优势正在发挥越来越关键的价值。

在大模型训练场景中，腾讯云智算的同源同构特性，可以支撑从公有云到分布式云、私有云的平滑、灵活迁移，避免因技术栈差异导致的代码重构或适配问题。而对于大模型训练涉及的海量敏感数据，同源同构支持分布式云将算力部署在用户指定地点，确保数据不出本地。统一的云原生架构支持精细化资源调度和软硬协同优化，显著降低故障率，提升断点续算效率，从底层解决了大模型训练中常见的迁移成本高、数据合规难、资源利用率低等问题。

对于大模型企业普遍关注的成本问题，腾讯云智算则通过构建应用、数据、算力全栈云原生的技术底座，持续实现降本增效。

李力认为，云原生就是“以云的方式使用云”，是 IT 基础设施最佳实践的集合。算力云原生通过 K8S、微服务与 DevOps 实现资源弹性伸缩，万核扩容进入秒级时代；数据云原生依托自研向量数据库、分布式元数据服务，支持 10 亿级向量规模与百万级 QPS 查询，数据读取效率提升 10 倍；应用云原生则通过模块化开发、动态伸缩等技术，降低架构复杂度，实现资源成本下降，直播带宽开销降低。腾讯云还为用户提供丰富的中间件和数据库、音视频 SaaS 化能力，助力用户聚焦业务创新，无需在底层技术上过度投入。

李力说，腾讯云希望为行业提供性能领先、多芯兼容、灵活部署的智算平台，帮助产业突破算力瓶颈，加速释放 AI 生产力。在计算层面，高性能计算集群 HCC 能够将启动训练时间缩短至 1/30，针对 AI 场景定制优化自研服务器，千卡故障率低至 0.16，故障恢复时间缩短至 5 分钟；在网络层面，自研交换机、光模块和集合通讯，训练通讯耗时降低 50%，集群规模提升 100%；在存储层面，自研高性能存储引擎 Histor，Checkpoint 写入时间降低 90%，样本提升效率提升 50%；基于数据平台 Data Platform，全面提升数据洞察能力，实现千亿级数据管理，毫秒级延时数据查询；而通过丰富的智算生态，整合 AI 基础设施、开发工具及行业解决方案，打通“算力-开发-应用”全链路能力。

李力表示，腾讯云智算并非简单叠加 AI 能力，而是通过云原生生态体系与 AI 深度融合，打造真正的“AI 原生云”。腾讯云将继续加大在生成式 AI 云基础设施上的投入，在更广泛的应用场景实践、验证和持续提升自身能力。

发布于: 刚刚阅读数: 4

极客天地

关注

还未添加个人签名 2021-12-22 加入

还未添加个人简介

发布

暂无评论

创作场景

腾讯云李力：构建稳定安全的基础设施，助力大模型应用落地

极客天地

评论