写点什么

成立 3 年,云服务厂商火山引擎全景扫描

作者:B Impact
  • 2023-04-25
    上海
  • 本文字数:6624 字

    阅读完需:约 22 分钟

成立3年,云服务厂商火山引擎全景扫描

采访、撰文|宇婷

多云、多模型,将会成为 To B 企业级客户的终局选择。

根据麦肯锡的报告,到 2025 年,依然会有 42%的企业保留私有云。在负载分布层面,边缘云占比在逐步上升。根据 IDC 报告,2025 年超过 30%的数据需要边缘实时处理。造成这些现象背后的原因是复杂的,既有业务形态和成本管控的原因,也有数据安全和监管要求的原因。对于企业来说,必须要有能力解决好这一分布式多云体系带来的挑战。2022 年,火山引擎对超过 4000 家云消耗大于 100 万的企业进行调研,其中,使用多云架构的企业占比 88%,达到历史新高。

在鲜明的需求下,三年前进入中国公有云服务市场的火山引擎,其特点和路径越发鲜明。

4 月 18 日,火山引擎总裁谭待在 2023 春季 FORCE 原动力大会中的一些观点和数据非常值得注意:

1、在当下大模型企业中,10 家大模型企业,有 7 家选择了火山引擎的服务。

2、对中台的反思,本质是因为数据需要流动而非僵固的状态。

3、火山引擎宣布了与字节跳动的国内业务进行大规模并池,最高程度降低企业级客户云服务成本的 80%。

本篇文章分析了火山引擎发布的多款产品背后的战略逻辑,解析了谭待和火山引擎对中国公有云服务市场的最新思考。

图注:火山引擎总裁谭待 

一、原力 FORCE 与全栈云产品线探索

火山引擎选择“FORCE、原力”作为大会品牌,寓意:助力企业客户云上增长。谭待在演讲中提到:“火山引擎的定位是敏捷迭代、数据驱动和体验创新——云上增长的三个核心要素,也是企业增长需要构建的三个核心能力。”火山引擎发布的所有产品,也是围绕这三个要素出发的。

1、敏捷迭代

大模型时代,训练和托管大模型都会带来大量的成本开销,继而带来巨大的价值不确定性。选择上云,是这个问题的最优解。其次,要根据企业自身特点设计好对应的分布式云架构。企业级客户“用好云”的核心是做好多云策略,平衡好中心云和边缘云的负载。谭待从火山引擎客户这里得到的反馈是,对云厂商来说,最重要的就是要给客户适合的方案,并且在价格方面有优势。

火山引擎在这一点上做到了三方面:

一是资源复用。目前,字节的国内业务拥有过亿核 CPU 资源池、数十 EB 的企业存储。以此为基础,火山通过充分和字节进行并池和混布,分钟级可调度十万级核 CPU,实现更极致的弹性和性价比;

二是全面云原生化。字节内部计算体系已经实现超过 95%的容器化,并且基于云原生实现了超大规模的存储池化。这些技术能帮助客户通过云原生进一步用好云的弹性,并且通过业务混布提升资源利用率。

三是坚持全栈自研。包括自研服务器、自研 OS、自研虚拟网络、自研 mGPU 技术等,将部署密度提升超过 500%,为上层应用带来更高的资源利用率。

新品发布包括:

(1)火山引擎全栈自研的一个新核心组件——火山引擎 DPU,采取从硬件到软件的全栈自主研发理念,并基于 DPU 实现了新一代 RDMA 网络,以及软硬一体的 Hypervisor 层,使得整体网络性能升级到 5000 万 pps 转发能力,20us 延迟。在内部已经实现上万台 DPU 的部署,并且将持续提升渗透率。

(2)DPU+Intel 全新一代 SPR CPU 平台、DPU+AMD 全新一代 Genoa CPU 平台、DPU+Nvidia A800 裸金属实例三款产品,使得火山引擎将全面基于 DPU 构造大规模算力中心,形成 DPU+CPU+GPU 的混合算力体系。并在整机性能、单核性能、小规格实例方面提升效能。

(3)火山引擎 SPOT 实例可以实现常规云计算竞价实例的特性,并且能够通过与字节潮汐资源的混布,进一步降低运营成本,价格最高减少 80%。

(4)在多云使用场景下,企业做好分布式云,需要解决好三个问题:一是从单一公共云架构向多公共云架构升级,降本增效。二是从传统私有云架构向混合云架构升级,既能保障数据安全也能享受云的弹性。三是基于“算力靠近数据”的理念,形成覆盖 1-40ms 不同延时的架构方案,包括现场边缘、近场边缘和云边缘的体系化架构。

谭待认为,“火山引擎的优势在于最懂多云和分布式云架构。这是因为,字节跳动成立 11 年以来,内部使用过全球每一朵公有云服务和边缘云服务,形成了一整套完整的分布式云管理体系和架构实践。”

这一部分,火山引擎发布了四款产品:

首先是分布式云原生平台。该平台通过火山引擎自研的大规模集群联邦系统——KubeAdmiral,提供面向多云/混合云/边缘云场景的云原生管理能力,可以连接并管理用户任何地域、任何基础设施上的 Kubernetes 集群。不论企业的应用是构建在火山引擎云上、第三方云上、IDC 私有云上,还是边缘云上,都可以实现集群资源与权限的统一管理,实施应用跨集群分发和故障迁移,达到跨云一致体验。

其次是多云 CDN 管理平台。该平台是基于字节数百 Tbps 带宽,十多家 CDN 厂商实操经验构建而成的;为企业客户在多云场景下提供 CDN 智能容灾、质量优化、成本管理、运维优化等综合管控能力,帮助企业用好多云 CDN。当前,火山引擎已经为行业内多家客户提供了相关服务,邀测结果表明,该平台能有效降低运维管理投入的 50%,并进一步降低 CDN 支出成本的 10%。

第三是全栈多云安全平台。该平台为企业提供 SaaS 化的多云安全管理服务,本身具备轻量化、跨云支持和利旧兼容等特性。同时,它还能够在多云环境下统一管理资产、服务、告警、身份四要素,帮助企业高效、统一的实现多云安全运营,多云安全运维和多云数据共享。并一站式解决护网、合规、数据防泄露等问题。

第四是混合云平台 veStack。该平台面向公有云和私有云长期并存的场景,实现更高的资源利用率、敏捷性,以及通过与火山公有云的同源设计,实现云上云下能力统一、体验统一、管理统一。

此外,veStack 也支持多种异构存储协议,兼容一云多芯,支持海光、鲲鹏等国产芯片服务器,符合金融、政企客户等行业要求。

(5)面对多云多模型,火山引擎推出面向推荐场景的高速训练引擎等产品。

(6)火山引擎支撑了其在智能驾驶、AI 制药和大模型领域客户需求的机器学习平台。

此处 5、6 产品,我将在第二个小标题中详细分析,拆解火山引擎目前在 AI、大模型领域的思考。

2、数据驱动

《基业长青》的作者吉姆·柯林斯:企业的永续经营依赖于公司飞轮的持续转动。

谭待在这次公开演讲中也提到了最近比较火热的话题——数据中台。

“最近这段时间,经常能看到有文章批评数据中台的无用,也能听到一些公司建设数据中台的失败案例。”

“我们认为,这里面最大的问题,就是只有活的数据,只有用起来的数据才是有价值的数据;而数据中台只是数据建设的一部分,并不能解决这个问题。”谭待认为。

去年,结合对字节数据驱动成功经验的总结,火山引擎提出了数据飞轮这个更完整的模式。“数据飞轮”包含三个环节:数据生产、数据应用、数据消费。数据消费是数据飞轮建设的核心,通过数据消费可以驱动业务应用,打造数据应用的闭环;通过数据消费驱动数据建设,才能有的放矢地建立数据平台。要将数据生产、数据应用、数据消费这些环节连接起来,相互促进才会越转越顺。

围绕数据飞轮,火山引擎已经推出一系列产品。数据应用方面包括:火山 A/B 测试、增长分析、CDP、智能数据洞察等。这一类产品能够帮助企业在用户营销、私域运营等应用场景更好地发挥数据价值。在数据建设和引擎层面,通过 EMR、ByteHouse、DataLeap 等产品帮助企业构建数据底座,降本增效。

字节跳动副总裁杨震原也在演讲中强调:“火山引擎要做的,就是把平台的工作做好。大家可以看到,数据处理的整个过程、模型训练、评估到上线,再到 A/B 测试,全平台有统一的集成。算法工程师不需要反反复复去沟通各种环节,串联各种业务,他可以更聚焦在自己的工作上。”

数据驱动方面,火山引擎推新升级的新品包括:

(1)云原生湖仓产品 LAS。LAS 直接基于云原生容器构建,支持 Hudi 存储引擎和统一元数据管理,并提供兼容 SQL 和 Spark 的全面计算引擎,以建数据基础设施。火山引擎 LAS 有三个核心优势:极致性能、Serverless 全托管、降本增效。

(2)Serverless 版本 Flink 计算服务。该服务属于实时计算方面,完全基于云原生构建:脱胎于抖音内部超大规模实践,日常峰值 QPS 达 100 亿,稳定性提升 51%;通过 Serverless,实现弹性扩缩容和在离线业务混部,资源利用率提升 40%;并且能够统一调度,满足流批一体等多种计算模态。通过 LAS 和 Serverless Flink,企业可以更加高效、经济的建设自身的数据底座。

(3)管理驾驶舱 Plus。其实现了从“看数”到“辅助决策”的增强进化,管理者对战略目标、数据实时观测、交互,进行全面移动化。

3、体验创新

为提升用户视频化体验,火山引擎发布和升级了 6 款产品及解决方案:火山引擎云游戏产品、创意互动 Vlog、AR 互动营销方案,WebRTC 传输网络、数字人产品以及音视频云端一体解决方案 veVOS。这六款产品,其实是火山引擎音视频技术能力的冰山一角。

同时,为企业提供一站式 IT 管理与办公安全平台——飞连,飞连的三块核心内容是:身份,网络,终端一站式管理,让员工随时随地安全接入办公网络;云,网,端融合,帮助企业构建安全无缝的统一办公网;以及整合全套办公安全能力,解决混合办公中各种安全隐患。火山引擎官方数据,飞连已覆盖 100 万台终端设备,小米为其客户。

小米在现场的用户视频中反馈:“希望 IT 基建在解决管理复杂性难题的同时,真正帮助数字化业务发展。依托飞连,我们提升了网络接入与办公终端安全性,从 IT 基建的层面,打造了一个更能支撑小米业务发展的安全办公空间。”

在小米原有能力的基础上,小米引入飞连,围绕身份、网络、终端的办公网三大核心体系打造了 All in One 产品架构与解决方案,用一体化管理平台实现数据打通与综合研判,很大程度上提升了安全响应准确度,同时又提供了客户端自动化 IT 工具与应用,让 IT 服务突破线下地理空间限制,来保障全体员工的办公体验。

我非常赞同小米的发言人在视频中的一句表达:智能化运营、外部协同,这都表现数字办公正在与业务加速融合,对业务的支撑能力也在不断加强。而这种能力建设不再是单点、分散的,而应该是一场与 IT 基建一起的底层能力升级。

二、不做大模型,做大模型企业的算力“底座”

大模型也是此次火山引擎大会上媒体关注的重点。对于 7 成大模型厂商都在使用火山引擎云服务,官方也给出了明确的统计方法:根据市面上的调研报告,把其中做大模型的公司作为分母,把其客户作为分子,得出 7 成的数据结论。

在产业趋势上,谭待提到了他看到的两个非常显著的现象:

第一,多模态基础大模型的风起云涌。随着 ChatGPT 、GPT4 的推出,国内的大模型创新公司也在奋力追赶。在这方面,火山引擎支持了 Minimax、智谱、昆仑万维等大模型服务商,在模型训练和应用领域的快速发展。事实上,国内绝大部分大模型创业公司,也都在深度的使用火山引擎;

第二,大模型在垂直行业的加速应用。在智能驾驶领域,与智能驾驶服务商、造车新势力和主机厂进行了广泛合作,同时基于公共云进行了超大规模的自动驾驶算法训练。在生物科技领域,与行业客户进行了生信 PaaS 的联合共创,推动生信科研加速发展。在金融领域,与不同类型的金融机构进行 FinOps、智能风控、个性化推荐等云上 AI 创新。

针对多模时代,火山引擎推出两款升级产品:

第一是面向推荐场景的高速训练引擎。个性化推荐是移动互联网最重要的交互方式。但随着数据沉淀,越来越多的企业面临大规模稀疏模型的训练性能问题,导致模型更新缓慢,影响线上效果。这也是火山引擎推出高速训练引擎要解决的问题,高速训练引擎具备以下优势:

首先,采取软硬一体优化设计,支持 100GB-10TB+超大模型的高效训练;

其次,实现高可用 PS-Worker 架构,支持 PS、Chief、Worker 全方位容错;

第三,数据安全:企业只需要传输高度脱敏后的训练样本,保障数据安全;

最后,高性价比:支持多种模型瘦身技术、多种 GPU 模式,训练加速比 10 倍以上,综合成本可降低 25%~67%。

第二是在机器学习产品方面。去年 7 月,火山引擎正式发布机器学习平台,达到 0 碎片的极致性能和优秀的开发体验,至今已经服务了诸多智能驾驶、AI 制药和大模型客户。今天也正式带来三个重要升级点:

第一,全新的实验管理-模型效果对比功能:仅需极少的代码改动,用户就可以通过该功能实时跟踪和对比训练效果,观察趋势,加速模型迭代;

第二,全新支持了弹性实例:实现灵活资源调度,随用随取,成本节省达 70%;

第三,针对大模型训练场景进行了全面优化(这也是最重要的):目前,平台可以支持万卡级别大模型训练场景,微秒级超低延时网络,让大模型训练更稳更快。

谭待在媒体群访时表达:“火山引擎在面对 AI 和大模型时代的思路是,首先服务好国内大模型创业的公司,比如 MiniMax,等他们把大模型做好之后,会和他一起共同开展对外的服务。”

谭待强调:“火山引擎自己是不做大模型的。”

大模型的背后是大算力,以及工程能力解决好千卡、万卡并行计算和网络能力。这些依赖于机器学习支撑。

谭待认为,火山机器学习平台一个很大的优势在于其“内外同款”。

“比如在内部抖音,因为它在推荐广告上也有很大规模的训练场景,所以我们在这些场景里面做了非常多的打磨,再加上我们对外不只是大模型,在生物制药,在自动驾驶,其实规模都很大。这种情况下我们积累在一起以后,我们这些实战的经验是非常重要的,你这个平台好不好,关键是你有没有在真实的这么大的规模中去做过打磨。”

谭待也回答 To B 新势力,是不是大模型企业一定要绑定公有云:“从概率上来说一定是越大的算力公有云的优势越明显,因为首先公有云的好处是按照你的需求去使用,按时间、按负载。而你的算力需求越大的时候,你的启动门槛越高,你通过公有云的这个商业模式,实际上能让你的启动成本非常低,启动成本低了之后你就不用冒太多风险。”

三、字节投入云服务的决心以及战略目标

企业服务、To B 服务跟 To C 服务很不一样,在这一点上火山引擎和字节跳动是有横向体感的。

“To B 服务是要一个漫长的实践过程,但它积累起来以后会有很强的连续性。所以在短期考虑的还是怎么面向客户创造更多的价值,把组织能力、产品能力做好,在中短期这是我们最关心的事情。”

“长期来看,要回归商业本质,云计算要成为一个盈利的业务,但这个也不是特别担心,因为我们去看全球领先的云计算公司他们的盈利性非常好,所以这其实是一个很好的赛道。”谭待也针对关于火山引擎 ROI 和持续投入的提问,如是回答。

本次发布会发布了十余款技术和产品,我也向谭待请教了“如何看待整体产品矩阵发布背后的统一逻辑”的问题。

谭待回答 To B 新势力:火山引擎 slogan 叫云上增长行动力,我们对外的产品理念一直围绕着云上增长的三个核心要素。

第一个是敏捷迭代。敏捷迭代包括了刚才说的云 IaaS、PaaS 的能力,特别是多云、分布式云,怎么样管理好在多云上的负载。在中心云、分布云上,今天发布了一系列多云分布式管理的平台,所以这是跟敏捷迭代相关的,以及最关键的通过机器学习平台做好云上的智能创新。

第二个是数据驱动。数据驱动我们讲了数据飞轮,数据飞轮核心是数据消费,数据消费一方面是构建数据应用能力,这里面就是 A/B 测试、CDP、GMP 这些事情。另一部分是构建数据平台的闭环,那就是大数据的组件,所以今天也发了这些相关的产品。

最后一个是体验创新。体验创新就是我们怎么通过更好的技术,去打造更清晰、更互动、更沉浸的视频体验,这有赖于视频云。为给用户带来视频体验创新,特别是这次发布的云游戏、WebRTC 传输网络、音视频云端一体解决方案 veVOS 等 6 大产品。

体验创新既要关注外部对用户的创新,也要关注内部运营、内部员工的体验。所以我们推出飞连这个产品,因为未来的企业更多的会采用混合办公的模式,你怎么样构建好适合于混合办公的 IT 基础设施。

所以不管是今天还是未来,我们都会围绕着刚才说的敏捷迭代、数据驱动和体验创新这三个要素来去构建我们的产品服务体系。

在生态布局方面,火山引擎生态副总裁赵文婕在演讲中提到:“2023 年,火山引擎会重点聚焦云+数据,和伙伴在金融、大消费和汽车等行业持续共建,争取尽可能多的解决客户实际的业务问题。”

在 SaaS 生态方面,目前,火山引擎已经和 60 多家精选伙伴构建了深度合作关系,在抖音电商、抖音生活服务、营销等场景共创,并且在半年多的时间内,服务了 1000 多家客户。

对于火山引擎未来一年的战略目标。谭待总结:

“每年战略目标都比较类似,首先是要把产品的竞争力不断往上做。你要对更多的行业有更深的了解,有标杆的 case,更大规模的复制,你要给客户创造更大的价值。这些都做到了,结果可能就是你整体的业绩能持续的增长。所以大的方向是不变的,当然我们的价值理念刚才也说了,敏捷迭代、数据驱动、体验创新。所以战略一定是要看得更长期,只不过是不同阶段有不同的目标。”

目前,谭待认为,火山引擎成立三年,还处在早期阶段,需要用几十年的眼光来衡量这一赛道。

关于并池,此前我也通过视频号做了报道。

发布于: 刚刚阅读数: 4
用户头像

B Impact

关注

还未添加个人签名 2022-06-30 加入

还未添加个人简介

评论

发布
暂无评论
成立3年,云服务厂商火山引擎全景扫描_B Impact_InfoQ写作社区