如何冲破大模型时代的算力关卡?天翼云给出答案
IDC 最新发布的《中国智算服务市场(2023 下半年)跟踪》报告显示,2023 下半年中国智算服务市场整体规模达到 114.1 亿元人民币,同比增长 85.8%;方正证券发布的《2023 年 AI 算力行业报告》显示,目前智能算力渗透率达到 22.78%,而未来“天花板”有望超 80%。可以看出,智算市场正处于加速增量阶段,面向人工智能时代的智算需求也将迎来爆发增长。
而无论是当下炙手可热的大模型技术,还是面向行业场景化的创新 AI 研发,都建立在一种资源的充分利用上,那就是算力。在复杂多样的需求之下,不仅要求算力资源更加充沛和灵活,还要求算力基础设施向智能和一体化的方向发展,以更高效率和性能来支持更大规模计算,助力我国智能产业加速“翱翔”。
那么,谁来承担这一使命呢?
勇担科技自立自强的使命,正是天翼云的特点。
在不久前的 2024 世界人工智能大会上,天翼云科技有限公司董事长、总经理胡志强表示,天翼云作为国家云,已具备丰富的智算资源储备、强大的智算平台能力和开放的模型应用生态。面向人工智能新一轮科技革命浪潮,天翼云坚持以科技创新驱动高质量发展,为数字经济发展注入新动能。
拥抱人工智能技术趋势、发挥云化算力底座作用,天翼云不仅自建了丰富的智算资源,同时汇聚了大量的社会智算资源,为千行百业向智发展,打造了坚实的云化算力底座。
近年来,我国在多个战略规划中提到了算力建设的重要性,比如国务院印发的《数字中国建设整体布局规划》提出,要系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局。随着当下 AI 和大模型的行业渗透率不断提高,对于多层次智算资源需求愈发凸显。
要保障算力充沛供给与高效利用,我们还需要攻破这些关卡:
第一关是“智算资源的供给紧张”。针对大模型和 AI 任务的专项算力,供给持续紧缺,海外高端算力芯片供不应求,供应链风险也越来越大。面对海外算力封锁的严峻形势,我们必须构建自主可控的算力资源体系,确保算力的安全性和稳定性,为各行各业提供坚实可靠的算力支撑。
第二关是“已有算力的利用率不高、区域算力差异大”。 在数字经济时代,算力水平制约产业和经济发展,很多地区、企业都开始建设数据中心,算力总规模持续增长,但不同地区、不同行业之间的算力资源分配也存在不均衡现象,已有算力资源的配置效率有待提升。
目前来看,通过云化的方式对算力资源进行集中化和高效调度、促进算力资源的跨地区跨行业共享,是提高算力利用率的可行方案,让算力可以如同水、电等公共基础设施一样,被用户便捷、低成本地获取。
面向云智融合的时代趋势,作为云服务国家队的天翼云勇担时代重任,通过科技创新进行攻关、进行多层次的算力布局,实现了丰富的智算资源供给,为客户提供强大的算力支持。
兵马未动,粮草先行。于 AI 产业而言,智算资源便是“粮草”。
面向智算,天翼云自建了大规模、多样化的算力资源,可以满足各个区域、各种行业场景的不同需求。目前,天翼云在全国范围内构建了“2+4+31+X”的资源池,织就全国算力“一张网”,构建了“中心-省-边缘-端”的四级算力布局体系。通过针对性优化,解决了 AI 在云上的大量工程化挑战。
首先,针对性解决大模型训练推理需要大规模算力问题。天翼云超前构建智能算力布局,针对 AI 产业集聚区,规划建设了北京、上海、广东、浙江、安徽人工智能公共算力中心,并先后在上海、北京建成万卡池,这也是全国最早建成并真正投产运行的两个国产化、全液冷、单集群万卡公共智算中心。
其次,针对能耗问题打造绿色高效算力。计算也是耗能大头,提高能效、节能减碳势在必行。天翼云通过领先技术降低能耗,如在公共智算中心采用液冷技术,实现能效和算效“双效合一”。此外还在内蒙、贵州、宁夏等清洁能源集聚地建设智算中心,提供绿色低碳的算力。
再次,为了提高算力响应速度和计算效率,天翼云已在 31 省预部署 AI 云电脑和推理池,在 280 多个地市的一城一池节点和 1000 多个边缘节点,按需下沉 AI 云电脑算力和推理算力。
最后聚焦技术自主可控,天翼云支持“一云多态”,提供国内外主流的 GPU、NPU 算力方案,面向不同场景为用户提供公有云、私有云、边缘云多种形态服务。
可用、可信、可持续的算力才能让中国 AI 持续前行,天翼云通过“建内功”,已储备了分布广泛、安全可靠、技术先进、绿色节能的大规模智算“粮仓”,并以云服务的形式,实现灵活便捷、低成本地获取,为各行各业智能演进提供充沛普惠的算力保障。
于智算资源而言,患寡亦患不均,有了算力粮储,进而要考虑高效调度分配。
为了保障我国算力资源高效运营,目前全国正加快形成一体化算力网络。但多地多方的算力联网,让算力互联、跨域调度管理等工作在实际运行中面临一系列挑战,亟需一张“算力网”平衡区域资源、实现供需匹配。
为此,天翼云重点研发算力分发网络平台“息壤”,从算力统一接入、算数网一体化调度、算力简便易用三方面进行技术突破:
在算力统一接入方面,“息壤”平台预置了算力插件,可高效接入平台化算力,此外还通过算力网关,将裸算力云化接入。
在算数网一体化调度方面,通过算数协同,实现数随算走、算随数动,让调度策略更全面,调度方案更精准,同时构建了多级算力互联调度,让调度区域更广、算力更泛在。
在提升算力简便易用性上,“息壤”借助了大模型认知能力,为行业与客户智能匹配合适的算力选择,让应用部署更简单。通过业务调度,还能实现跨地域跨服务商的故障自动恢复和负载均衡,提升应用可靠性。
天翼云通过“息壤”平台,大规模汇聚社会各方算力,解决了跨域、跨服务商异构算力的统一调度管理、并网交易等需求,实现促进算力互联互通、高效利用、供需匹配,也促进全国一体化算力体系加速形成。目前,“息壤”主要服务于三大算力场景:
一是自营的公共算力服务平台。目前已接入多家算力伙伴,显著扩大了天翼云的算力规模和品类,满足公有云客户的多元算力需求。
二是行业算力互联网。比如福建多所大学组成的高校算力联盟,通过多方资源共享、优势互补,提升算力利用水平。
三是城市算力互联网。通过整合区域内多方算力,结合产业政策,一体化统筹调度算力,目前已在多个区域成功实践。
通过技术创新与合作,天翼云以“息壤”为算力资源底座逐步推动构建起一张全国“算力网”,以多样且灵活的算力调度能力,打破算力分布不均衡、已有算力资源利用率低的瓶颈。
AI 的渗透率将持续增长,重塑社会经济的每一个角落。随着 AI 应用场景的不断拓展,算力需求也将呈现出多样化的特点,算力基础设施由通算向通智超一体化发展,算力建设也向更丰富、更多层次的智算发展。
无论需求如何变迁,天翼云始终勇立时代潮头创新技术、演进实力。我们可以看到“国云”的独特气质:
纵向有高度。无论是全栈自研的万卡集群解决方案,还是跨域调度的“息壤”平台,天翼云以极高的技术实力,创新性地解决智算供给难题。
横向有广度。作为“国家队”,天翼云致力于推动算力的普惠化,息壤平台加快形成全国一体化算力体系,让充沛、可靠、持续的算力成为千行百业用得到、用得起的资源。
站在 AI 黄金期的起点上,跨越算力瓶颈,天翼云给出的答案,是将自建算力和社会算力汇聚起来,AI 将像水、电、网络一样无处不在,把普惠算力送往更加广阔的天地,送到社会的每一个角落,为数字经济发展注入磅礴动能。
既已越过了向智能云发展的拐点,便是开启新一轮智算征程。作为 AI 加速渗透的强大后盾,天翼云在智能时代的壮丽征程才刚刚拉开序幕。
评论