腾讯云流计算 Oceanus:新版弹性方案,助力实时业务降本超 30%
实时计算背景
1、数据格局巨变,实时计算应运而生
进入大数据时代,数据量呈爆炸式增长,传统批处理计算模式难以满足日益增长的实时性需求。数据实时化已经成为数字经济时代的必然趋势。实时计算作为一种能够持续处理数据流的技术,能够以毫秒级延迟提供计算结果,为实时分析、风控、推荐等应用场景提供强有力的支持。
2、实时计算赋能各行各业,推动数字转型
实时计算凭借强大的实时数据处理能力,在金融、游戏、电商、汽车、教育等各行各业得到广泛应用,助力企业实现数字化转型。
3、实时计算成本较高,降本增效
近年来,受大环境影响,企业普遍面临着成本上升、利润下降的压力。在这样的背景下,企业需通过降本增效来提升自身竞争力。在实时部分企业往往需要投入大量的人力物力,面临诸多挑战,包括:
高昂的运维成本: 需要专业的运维人员负责平台的日常维护,包括硬件维护、软件升级、故障修复等,人力成本高昂。
复杂的运维管理: Flink 平台的运维管理工作繁琐复杂,包括资源监控、任务调度、性能优化等,需要专业技术人员进行操作和维护。
弹性扩展困难: 难以根据业务负载进行弹性扩展,无法满足业务快速增长的需求。安全风险高: 需要自行构建安全防护体系,容易受到安全攻击。
产品介绍
流计算 Oceanus 是腾讯云大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台,处于国内领先地位。
作为腾讯云推出的全托管流式计算服务,流计算 Oceanus 不仅提供强大的实时数据处理能力,更以卓越的成本优势助力用户实现降本增效。流计算 Oceanus 采用云原生架构,使用业内领先的自研服务器技术,丰富的运维功能,并提供集群及作业弹性伸缩,细粒度及算子级别的资源配置,结合丰富的内核生态性能优化,经众多客户经验实践,在保证性能的前提下,降本可超过 30%。
降本方案
1、自研服务器与存算分离架构
|自研服务器技术,大幅降低服务器成本
流计算 Oceanus 底层采用腾讯云自研的星星海服务器,该服务器拥有业界领先的性能和成本优势。
与传统服务器相比, 星星海服务器采用业界领先的硬件技术和优化的架构设计,能够提供更高的计算性能和更高的资源利用率。
|存算分离架构,有效降低存储成本
流计算 Oceanus 采用存算分离架构,将计算资源和存储资源解耦,并基于高性能云盘和 COS 对象存储服务构建存储体系。这种架构带来以下存储成本优势:
按需付费: 用户仅需为实际使用的存储空间付费,避免了传统存储模式的预付费浪费。用户可以根据数据访问频率和成本要求选择合适的策略,进一步降低存储成本。
弹性扩展: 存储空间可以弹性扩展,满足用户数据量快速增长的需求,同时避免资源闲置浪费。Oceanus 可以根据数据写入速度自动调整存储容量,确保数据存储的平滑扩展。
高性能存储: Oceanus 基于高性能云盘和 COS 提供高吞吐量、低延迟的存储服务,能够满足实时计算对存储性能的苛刻要求。即使面对海量数据,Oceanus 也能保证数据的高速读写,助力实时分析的流畅进行。
2、集群弹性伸缩与作业自动扩缩容
|集群弹性伸缩:更灵活的实时资源池
流计算 Oceanus 支持集群弹性伸缩,用户可以根据业务负载的变化灵活调整集群资源,您也可以通过开启多个集群来实现更灵活的资源池管理。
|作业级别自动扩缩容:精细化资源管理,提升利用率
用户通常需要花费大量的时间对作业进行调优。例如新上线一个作业时,需要考虑如何配置该作业的并行度、TaskManager 个数、TaskManager CU 数等。此外,作业运行过程中,还需要考虑如何调整作业资源配置,提升作业的资源利用率;而作业出现反压或延时增大的情况时,需要考虑增大作业资源配置等。除此之外,许多用户的作业流量可能存在潮汐的特征,例如直播场景在夜间流量高,白天流量低。如果按夜间的峰值处理能力来配置资源,可能导致资源浪费;而按白天的处理能力来配置资源,有可能导致夜间处理能力不足。对此,流计算 Oceanus 提供两种自动扩缩容的能力,来实现资源的精细化使用:
基于资源使用情况的自动扩缩容: 根据作业的 CPU、内存等资源使用情况,自动调整作业的 vCPU、内存等资源配额,可以帮助用户更合理地调整作业并行度和资源配置,全局优化您的作业,解决作业吞吐量不足、作业繁忙以及资源浪费等各种性能调优问题。
基于时间策略的自动扩缩容: Oceanus 提供的作业自定义调优功能,通过自定义扩缩容策略的启停时间,可以帮助用户更合理地贴近业务时间特征来调整作业并行度和资源配置。
|弹性包年包月集群及按量付费集群:更贴合业务的计费方式(开白)
弹性包年包月模式:对于用量较大,且业务具有明显波峰波谷的客户,我们新推出的弹性包年包月集群可以更优的贴合您的业务使用。您可以在包年包月的集群上额外开启定量的弹性额度,这部分弹性资源只有在您包年包月计算资源用满之后才会投入使用并按照按量付费的价格进行计费,相比传统的包年包月或者包年加按量组合方式可节省 15%的资源成本。
按量付费模式:对于业务发展有较大波动性,且无法进行准确预测,或者资源使用有临时性和突发性的客户,可以使用按量付费模式,根据实际使用量付费,避免资源闲置造成浪费。
4、细粒度资源及算子级别资源配置
|作业级别细粒度资源配置:充分利用 CPU 资源,降低成本
Oceanus 支持作业级别细粒度资源配置,用户最小可以以 0.25 CU 为单位为作业配置计算资源,充分利用 CPU 资源,避免资源浪费。
细粒度资源配置带来以下优势:
提高资源利用率: 能够更充分地利用 CPU 资源,避免资源闲置浪费。
降低资源成本: 在满足作业性能的前提下,使用更细粒度的资源,降低计算资源成本。
|算子级别细粒度资源配置:针对性优化,大幅提升资源利用率
Oceanus 支持算子级别细粒度资源配置,用户可以针对单个算子配置 CPU、内存、并行度、状态时间等资源,灵活满足不同算子的资源需求,避免资源浪费。
算子级别资源配置 是基于 Flink 的 Slot 共享组机制实现的。Slot 共享组允许用户将多个算子分配到同一个共享组中,并为该共享组配置资源。Oceanus 对 Slot 共享组进行了增强,支持更细粒度的资源配置,用户可以为每个算子单独配置 CPU、内存等资源。
算子级别资源配置 带来以下优势:
针对性优化资源: 能够根据不同算子的负载情况,合理分配资源,避免资源浪费。例如,对于一些 I/O 密集型算子,可以分配更多的内存;对于一些 CPU 密集型算子,可以分配更多的 CPU 核。
大幅提升资源利用率: 能够显著提高整体资源利用率,降低计算资源成本。例如,对于一些并行度较低的算子,可以降低其并行度,将节省下来的资源分配给其他算子。
与 Flink 原生 Slot 配置相比,Oceanus 将算子级别细粒度资源配置界面化,功能更加灵活,能够更精准地满足不同算子的资源需求,进一步提高资源利用率,降低成本。
5、完善的监控、告警、事件和日志功能,助力运维降本
|全方位监控:洞察作业运行状态,及时发现问题
指标监控:70+ 项指标,全面掌握作业运行情况
Oceanus 提供丰富的指标监控功能,涵盖作业运行相关的 70+ 项常用指标,包括 CPU 使用率、内存使用率、数据处理速度、端到端延迟等,用户可以从多维度实时查看作业的运行状态,全面掌握作业的性能表现和健康状况。
事件监控:及时感知作业运行异常,快速响应
Oceanus 提供事件监控功能,能够捕获作业运行期间发生的各种事件,例如作业启动、运行失败、快照失败、异常退出等,并提供事件面板供用户查看和订阅。用户可以根据事件信息,及时感知作业运行异常,快速采取措施进行处理,避免故障蔓延,降低运维成本。
|智能告警:主动预警,防范故障于未然
指标告警:70+ 项指标告警,支持 AI 动态阈值告警
Oceanus 提供智能指标告警功能,支持对 70+ 项指标进行告警配置,并支持 AI 动态阈值告警。AI 动态阈值告警能够根据历史数据自动学习,识别正常运行模式,并动态调整告警阈值,有效避免误报和漏报,提升告警准确性。
支持多种告警策略:支持固定阈值告警、比率告警、趋势告警等多种告警策略,满足用户的多样化需求。
支持告警通知:支持邮件、短信、微信等多种方式的告警通知,确保运维人员及时获知告警信息。
事件告警:支持根据异常事件告警
Oceanus 提供事件告警功能,支持根据作业运行期间发生的异常事件进行告警。用户可以根据自身需求,对告警规则进行配置,例如指定某些类型的事件触发告警,或者当事件发生达到一定次数时触发告警,确保及时发现和处理作业运行异常。
支持特殊事件告警配置:流计算 Oceanus 后台会持续监测和分析作业的运行状态,当作业遇到严重异常时(例如 TaskManager Full GC 过久、CPU 占用率长期过高、Pod 异常退出等),会推送相应事件以供用户查看和订阅,以此可判断作业的运行健康度。
|便捷日志:快速定位问题,提升排障效率
Oceanus 提供日志功能,用户可以在作业详情的日志页面中查看作业的日志信息,包括启动日志和运行日志。日志信息详细记录了作业运行过程中的事件和状态变化,方便运维人员快速定位问题根源,提升排障效率。
支持日志检索和过滤:用户可以根据关键字、时间范围等条件进行日志检索和过滤,快速定位目标日志信息。支持日志采集级别配置,DEBUG , INFO , WARN , ERROR 等级别输出。
支持日志快捷诊断:支持日志快捷诊断,一键诊断作业异常点,快速定位异常问题。
|运维管理面板:集中管理,轻松运维
Oceanus 提供运维管理面板,可以从空间维度展示所有作业的运行状态,包括运行资源、业务延迟、TaskManager 的 CPU、内存等运维人员最关注的指标,方便运维人员进行巡检,快速发现和处理潜在问题。
支持多维度的作业指标展示:提供运维人员关注的延迟、CPU、内存、异常事件个数等指标,快速识别异常作业,大幅提高运维效率。
支持作业操作:支持对作业进行启动、停止等操作,方便运维人员进行作业管理。
客户效果和收益
某出行领域企业致力于为用户提供更加安全、舒适的驾驶体验。为了更好地了解用户驾驶行为,提升用户满意度,该企业采用了流计算实时处理用户驾驶行为数据。
业务场景
实时采集和分析来自车辆传感器的数据,刻画用户驾驶行为画像,识别危险驾驶行为,及时提醒驾驶员,降低事故风险。
降本方案适配
使用弹性扩缩容: 由于驾驶行为数据具有明显的周期性,每天白天的数据量大,夜晚的数据量少,使用弹性扩缩容可以减少不必要的资源消耗。
使用细粒度资源配置: 对于不同的驾驶行为分析任务,对计算资源的需求差异较大。例如,实时识别危险驾驶行为的任务需要较少资源,而分析驾驶习惯的任务则需要更多资源。因此,可以采用细粒度资源配置,为每个任务分配最合适的资源,提高资源利用率。
充分利用监控、告警、事件和日志功能: 实时监控驾驶行为分析系统的运行状态,及时发现并处理异常,避免故障发生,降低运维成本。
降本效果
通过采用 Oceanus 的降本方案,成功将实时计算成本降低了 30% 以上。具体体现在以下几个方面:
计算资源成本: 由于采用了弹性伸缩策略和细粒度资源配置,计算资源利用率显著提升,计算资源成本降低了 30% 以上。
运维人员成本: 由于充分利用了监控、告警、事件和日志功能,运维人员的工作效率显著提升,运维成本降低了 50% 以上。
总结
流计算 Oceanus 通过提供弹性伸缩、细粒度资源配置、完善的监控、告警、事件和日志功能等多种降本措施,帮助客户显著降低资源成本,并提升运维效率。如果您正在寻求高性能、高可靠、低成本的实时计算解决方案,腾讯云流计算 Oceanus 将是您的最佳选择。
评论