风很大的“云数仓”到底怎么用?三家企业交出答卷
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
近年来,数字化转型的浪潮席卷全球,百行千业都在面临着前所未有的海量、复杂的数据处理任务,传统 OLAP 技术架构中的痛点变得越来越明显,如扩容缩容耗时长,导致资源利用率偏低,成本居高不下;运维配置复杂,需要专业的技术人员介入等。
为了解决上述问题,云原生数仓(以下简称云数仓)应运而生。
与传统方案不同的是:云数仓借助于云平台的基础资源,实现了资源的动态扩缩容,并最大化利用资源,从而达到 Pay as you go 按实际用量付费的模式。
在电商行业,云数仓能够更好地满足用户体验、商品推荐、物流调度等关键业务场景的数据需求;
而在流量红利逐渐消退的时代,广告行业则借助云数仓迈向了精细化营销的道路;
此外,越来越多依靠大量数据模型的垂直行业如地质、气象预测等,也开始通过云数仓实现快速实时分析,进而加速业务洞察和决策的高效落地。
跨过更大的技术挑战,向精准营销进发
广告,是对准“人”的传播,更精细化的营销,意味着对受众人群必须有着更指向性的选择。
如今,由于流量红利逐渐消退,越来越多的广告企业和从业者开始探索精细化营销的新路径,取代以往的全流量、粗放式的广告轰炸。
对于国内某知名广告交易平台来说,精细化营销不仅意味着要在数以亿计的人群中优选出那些最具潜力的目标受众;同时,从成本层面看,还需要稳定高效的实时计费控制能力,以便能够精准地调整广告投放策略。
这些需求无疑对提供基础引擎支持的数据仓库能力,提出了极大的技术挑战。
第一个挑战是数据量。精细化营销所筛选的人群包以及人群基数都是巨大的,做交并补计算所需的大量数据导致查询复杂度高,找定向人群的难度就像是在海洋中寻找一颗特定的珍珠,无疑需要性能极高的查询引擎帮助我们快速而准确地找到目标。
第二个挑战是实时性。一个广告投放后,广告主最关心的无疑是实时地知道这个广告大概会影响到多少人,又有多少人受到该广告影响进行了消费行为。在这里,“实时”的定义通常在时延五秒之内,快速的反馈让广告投放者能够及时且准确的了解到投放的效果,并为下一步投放规划抢占先机。
为了满足该广告交易平台的业务需求,ByteHouse 提供了两个方面的能力支持。
首先,结合消息队列 Kafka,ByteHouse 可以帮助该广告代理平台做到实时接收广告曝光、点击数据以及请求等信息,并将这些信息实时存储,构建物化视图以便实时查询,满足广告交易平台服务的实时计费控制和广告投放策略调整的需求。其次,作为广告交易平台的一个功能模块,ByteHouse 以类代理的方式,随着用户 SaaS 服务客户的增长而复制售卖,与客户之间实现互惠和彼此成就。
目前,该广告代理平台接入火山引擎 ByteHouse 的总体收益是非常可观的,在 QPS 峰值压力下, 95%的查询都可以做到秒级响应,让分析师能够快速获取有效受众信息,评估广告价值。
大模型能力支持,计算「风、光、电」的大地量子
自人类开始进行数值气象预报以来的几十年间,数值预报的基本模式没有发生本质的变化,我们依然需要依靠大气物理模式,进行天气预报。
而在气象这样一个人类无法清晰得出变化逻辑的混沌系统中,一点点的数据偏差,就可能造成天气预报的重大偏差。
大地量子,一家 AI 大模型与数字孪生公司,用全新的方式让 AI 基于过去四十年历史观测数据,自主学习气象模式,自主研究大气物理模型,利用自有的 AI 与超算优势,完成下一代气象预报系统。
预测一个地理位置的气象情况,实际是根据周围的观测站点的大量信息,做重合面积的一些地理信息查询,包括经纬度、温度、湿度等具体数值。
除了预测气象情况,当变幻莫测的风和云、夏季的烈阳和冬季的积雪,都变为一串用来判断太阳能板发电效率的数据,自然的庞大力量在电子世界里,为数据的计算能力和实时查询也带来了巨大的难点。
一是地理信息数据处理能力,业务需要丰富的 geo 函数,用于整合海量的历史气象数据,对目标点位/区域实现天气预测;二是高时效性查询需求,风场、云层预测等模型需要实时查询能力,快速做到结果反馈;最后,由于查询的接口众多,高并发扩展也是交互式业务不可或缺的能力之一。
如何解决这些痛点?大地量子选择了与火山引擎云原生数据仓库 ByteHouse 进行合作。
首先,ByteHouse 的强计算实力有力支撑起各类日常 GIS 查询,再者,由于大地量子后期将会把部分功能作为 API 接口对外开放,ByteHouse 的高查询性能足以满足预测系统及后续交互式查询需求,进一步为大地量子提供了查询并发的保障,为业务扩展提供基础。
目前,在业务实践中,平均查询任务时长始终保持在 50 毫秒以内,同时可以做到 400QPS 的峰值并发,火山引擎 ByteHouse 的高效率表现为大地量子提供了最有力的用数支持。
极客邦科技:让更好的内容“找到”更合适的人
在互联网时代,用户行为数据如同一面神奇的镜子,透过其中的反射,企业能够根据用户的喜好、需求以及行为模式提供个性化服务。
而行为分析是企业解答一系列关键问题的利器,它能揭示用户在网站上的停留时间、点击率和转化率等关键指标,还能深入了解用户对特定产品或服务的评价,更重要的是,行为分析能够洞察用户在购买决策过程中的关键因素,推动下一次的消费行为。
在字节跳动内部,行为分析系统为业务提供了各种各样的分析模型,包括留存、转化、分群等模型,而这些模型的底层也正是火山引擎 ByteHouse 在进行查询支撑,而在行为分析能力对外开放后,也吸引了很多客户前来复制增长的秘诀。
极客邦科技,致⼒于为技术从业者提供全⾯的、⾼质量的资讯、课程、会议、培训等服务,通过独特的专家⽹络和优质内容⽣产体系,为企业、个⼈提供其成功所必需的技能和思想,在技术⼈群、科技驱动型企业、数字化产业当中具有⼴泛的影响⼒。
在当今数字化时代,我们身处于一个充满无限可能的世界。数字化领域分支众多,类型多样,从人工智能、大数据分析到云计算、物联网,从虚拟现实、增强现实到区块链、加密货币,每一个分支都在不断地演化和创新,带来了前所未有的便利和机遇。
而在为数字化人才提供优质的资讯及课程的过程中,哪些内容适合适合哪类型的客户?这个客户适合哪一类的课程?这些问题对于极客邦科技来说,是否能够清晰得知答案,直接导向了最后的业务收益是否符合预期。
同样的数量和时间挑战也出现在极客邦科技这里,而交互式分析和对明细聚合查询的需求,让极客邦科技选择了与火山引擎合作。通过火山引擎增长分析平台 DataFinder 云托管版本,构建基于用户行为的多维度分析平台,对用户需求进行充分洞察,提供对应服务实现精细化运营。
而事件分析、留存分析、转化分析、用户分群、用户留存等多种分析方式和场景的查询需求,则使用了火山引擎云数仓 ByteHouse 灵活的分析能力进行托底,同时,还可以结合极客邦科技自有的数据去做一些自定义的分析。
行为分析,不仅仅是一种工具,更是一种独特的洞察力。火山引擎 ByteHouse 以其卓越的能力,帮助极客邦科技深入洞察市场中的商机和业务发展潜力,与更多火山引擎数据产品联手打好组合拳,揭示出隐藏在数据背后的宝贵信息,抓住每一个商机的脉搏。
写在最后
从传统数据库,发展到更加侧重于服务大数据应用分析场景的云原生数据仓库,其背后体现的是数据技术更新换代的本质逻辑——以促进业务更好地数据消费、解决业务实际需求出发。
不久前,火山引擎发布了“以数据消费促数据生产,以数据消费助业务发展” 数据飞轮模式,为企业数字化转型提供了全新的视角。
上文中多个企业实战,正好与数据飞轮数据资产层的资产建设环节相切合,数据激增可以反向推动资产建设与数据治理的优化,而更好的数据治理,将促进数据研发效率的提升,进一步提升数据消费的效率,再循环到业务应用层通过洞察决策和执行优化,最终助力企业实现业务价值的提升。
火山引擎云原生数据仓库 ByteHouse,经过字节跳动内部沉淀迭代多年后正式对外提供服务,已与中国地震台网中心、海王集团、莉莉丝游戏、极客邦科技、大地量子等诸多行业企业达成了深度合作,凭借新一代的云原生架构,高效方便的运维模式,以及高性能更灵活的实时查询能力,为企业抓稳数字化机遇建立了夯实的地基,在数据资产这一层不断加速数据飞轮的转动,实现突破性增长,推动企业的数智化转型升级。
点击跳转【火山引擎云原生数据仓库ByteHouse】了解更多
评论