智算未来 | 2021 新一代人工智能院士高峰论坛智算网络分论坛成功举办
伴随我国超大规模预训练模型的发展,国内人工智能算力需求持续攀升,人工智能算力中心的建设如火如荼。新形势迫切需要在此建设过程中不仅考虑将算力中心作为独立的系统发挥作用,更应形成相互联接的算力网络,以满足网络化算力联通调度的需求。
12 月 19 日,“人工智能算力网络推进联盟”在 2021 新一代人工智能院士高峰论坛暨启智开发者大会上成立。12 月 20 日,为了更好地探索智算网络的建设、实践、保障和运营,峰会智算网络分论坛顺利召开。
智算网络分论坛现场,鹏城实验室与华为、百度、国家超级计算济南中心、武汉人工智能创新生态中心、中原人工智能计算中心、琴智科技研究院、中科类脑等智算联盟首批联盟单位完成了联盟签约仪式。
汇聚科创力量 共建算网融合
人工智能算力中心作为智能时代的新型公共基础设施,是发展人工智能产业的基础资源保障。为发挥其公共基础设施的作用,就要不仅建得好还要用得好。因此构建能够支撑人工智能产业持续发展的智算网络和管理运营机制就变得至关重要。
华为集群计算解决方案架构师崔金带来题为《人工智能算力网络调度平台系统架构》的报告。他认为, 作为一项具有重要意义的新技术,算力网络的落地节奏会分三个阶段:第一阶段,实现运营层面的互联,如提供统一的门户入口等。第二阶段,算力网络利用作业调度层面的互联,实现不同计算中心负载和网络的实时感知与简单调度。第三阶段,跨数据中心并行。系统可以进行细粒度任务调度,大模型并行训练,安全数据管理,还可以从应用场景支持各类复杂的多样性运用。
武汉人工智能生态创新中心副总经理蔡维康在现场作《武汉人工智能生态创新中心运营分享》主题报告,主要围绕武汉人工智能中心的运营模式以及武汉人工智能中心的发展状况等内容进行分享。他表示,未来武汉人工智能生态创新中心将在产业集聚方面,吸引头部科研院校及 AI 企业来汉合作,做实产业发展。
国家超级计算济南中心主任助理、研究员郭猛在题为《超算互联网的探索与实践》的报告中指出,超算互联网不仅仅是网络的概念,智算网络更应提供应用服务,以促使开发者、超算和用户的紧密耦合。打造从超级计算最底层的基础软件到中间件、编程工具、应用软件的全链条应用生态。
百度深度学习技术平台部主任研发架构师、飞桨分布式技术负责人吴志华在《飞桨大规模分布式训练技术》报告中介绍,分布式训练技术能够解决各种场景、各种硬件下多设备的协同训练问题。百度从产业实践的角度不断地进行应用落地的尝试,做出分布式训练算力和算法上的极致优化,在实际场景中打磨部署能力以提升用户的最终体验,让深度学习的创新应用更加简单。
鹏城实验室开源软件与平台研究所副所长、OpenI 技术委员会委员曾炜发表《基于算力网络的全国开源开放平台》的报告。他指出,人工智能开源社区的最佳支撑是智能算力网络,算力网络本身的发展是全球计算和通信产业结合的基础。因此他希望各方资源能在软件、硬件统一的模式为开源、开放提供服务。
业界大咖研讨 构建智算网络建设蓝图
在当日圆桌讨论中,陈文光、管海兵、王子彦、崔金、蔡维康、郭猛等多位业界大咖齐聚现场,共同探讨未来智算网络建设之路。
管海兵教授从政府角度出发,“工业社会看电力,信息社会看算力。算力对当今社会而言,就像以前的电力和水一样,是社会最必不可少的、非常重要的公共资源。”他认为建立算力网络是符合人类社会数千年来运行规律非常重要的举措。
王子彦回应“智能算力网络现状是什么?”一问。他认为,目前对于国家超算来说,国家做了投入,承担了相关的电费、运营补贴等费用。计算中心能够产生相关的科研效益,仍然是它的公共属性。但如果面向产业的话,地方政府要发展智算网络的现状压力仍然大。
崔金表示,虽然算力的汇聚跟水电网络有比较大的差别,算力网络是要把用户的数据、用户的算法拿到算力中心来计算,但希望未来智算网络能够从体验和网络特性上都能做成像水电网络一样。
曾炜表示,软件问题是制约整个网络体系打通和服务最关键的问题。他从开源和标准化的角度,鼓励不同的企业,甚至是圈子外的人在构建软件的过程中倡导共享,共同打造开放的软件栈。
郭猛回顾了网格计算和算力网络的发展历史。他认为网格计算是算力网络必不可少的研究基础。网格计算的分布式计算概念、作业调度的中间件、安全的解决方案和网格的文件传输工具对于构建算力网络都有非常重要的借鉴意义。
管海兵教授在回答现场提问者时总结,发展算力网络和发展智算网络并不矛盾。算力发展的前期阶段已经有了成功的实践,云计算就是一种算力网络。云计算发展到今天,目前存在最大的问题是云和云之间不能互联互通,对用户的水平有一定的要求。因此,只有不断的实践,才能走到更大的普及、普惠、甚至普世的层面。
人工智能算力网络推进联盟将以“平等自愿、优势互补、资源共享、合作共赢”为原则,结合国内外人工智能技术和产业发展需求,整合业内资源,加强相互合作,提升人工智能技术、产品研发水平和应用能力,促进人工智能产业健康快速发展,保障国家人工智能技术和产业的安全,推动人工智能技术在社会各领域、传统产业各领域的广泛应用。
评论