物流 KA 商家业务监控能力建设与实践
作者:京东物流 林群
一、背景
在常规的运维及线上故障响应实践中,我们观察到系统监控指标(System-Level Metrics)的异常波动往往与业务监控指标(Business-Level Metrics)的异常呈现高度相关性。具体而言,当系统级监控指标出现异常时,业务级监控指标在绝大多数情况下亦会表现出异常状态。然而,反之则不然,即业务级监控指标的异常并不总是伴随着系统级监控指标的同步异常。
此种现象导致相关职能团队(包括研发、测试、运营等)在业务异常的感知上存在显著滞后性。具体表现为,业务异常的发现往往依赖于终端用户的事后反馈,而非通过实时监控体系的前置预警。这种滞后性可能意味着在问题被识别之前,业务已遭受大范围的负面影响,或已逼近其服务能力的临界阈值,从而对物流的运营稳定性和用户体验造成严重损害。
二、业务监控方案
通用数据监控流程如下图,从埋点输出数据,再到采集数据通过计算聚合得到各项指标,最后根据指标配置阈值进行告警规则设置和通过各类面板进行指标展示。
截止到目前集团内部 DevOps 平台建设过 3 个通用的业务监控应用,分别是 UMP 业务监控、PFinder 业务监控和泰山业务监控,KA 商家服务在这三个平台都有过一些案例实践,下面分别进行介绍。
2.1、UMP 业务监控
UMP 的业务监控建设的时间最早,现在也已下线。
但原有已接入的业务监控还在继续运营,比如 KA 商家服务的一个应用
关于这个应用基于 UMP 业务监控的实践场景可以参考《记一次大库大表的治理过程》的 4.3 章节。
2.2、PFinder 业务监控
在快运导单业务流程中,一旦包裹数量超出设定阈值,相关订单便会自动迁移至单独的导单分组,由独立机器集群通过限流机制进行处理。在单子转移过程,基于 PFinder 的业务监控能力进行了埋点追踪,对事业部包裹数量进行统计,实时监控单位时间内的包裹总数,对触发阈值进行告警机制,提前感知系统压力,及时监控系统指标压力。
监控展示如下:
告警规则配置:
告警效果:
泰山业务监控是当前 KA 商家服务使用场景和业务覆盖最广的,也是本篇要重点介绍的业务监控平台,下面从统一日志格式、编码实践、数据可视化、业务监控告警和最佳实践分别进行介绍。
二、统一日志
2.1、日志格式
针对 KA 商家的业务特点和应用场景对日志的输出格式进行了统一规范;
•业务域和业务子域:这两个字段按照集团业务域对每个应用进行定义;
•业务场景:指单据的类型,比如下单、取消、修改和回传等;
•渠道来源:指请求的渠道来源,比如 JOS、EDI、物流网关、WMS 等;
•商家编码和青龙业主号或事业部编码:这是重点,因为 KA 商家需要按照事业部或商家维度进行监控;
•密度:指一次请求的单量;
•结果(Y/N):Y 表示成功、N 表示失败(业务层面);
•结果码和结果码描述:指一级结果码,大的分类;
•结果子码和结果子码描述:指二级结果码,细的分类;
•商家单号:指商家下传的唯一值;
•订单号和运单号:指业务成功后京东内部生成的各类单号,非固定字段,由各应用各接口自定义;
2.2、举个例子
下面分别举一个业务成功和失败的例子,重点在于 ECP、EBU、Y/N。
三、编码实践
3.1、log4j 文件配置
在 log4j 的 xml 配置文件里,<Properties>通常都有 patternLayout 格式化输出的前缀,复用就可以
<Appenders>里添加 RollingRandomAccessFile
<Loggers>里设置 AsyncLogger 的 AppenderRef
3.2、业务日志打印
在代码需要业务监控日志埋点的类文件里定义业务日志 Logger
Logger 打印日志
业务逻辑埋点打印业务日志
业务日志打印方法
3.3、日志文件
输出的日志文件
四、数据可视化
4.1、监控项
按照泰山业务监控配置日志文件各字段取值,对下单的业务监控配置后效果如下:
4.2、监控大盘
在泰山监控大盘里配置 KA 商家重点事业部的分钟级监控,每个事业部一个表格,可以直观实时了解各事业部下单情况。
下图是针对某个事业部的单独监控大盘配置,成功率和失败数以图形的方式放在左边,可以直观感受到业务变动情况;每一分钟的下单量以表格的形式放在中间,便于准确了解分钟级的单量;最后观测周期内的下单结果放在右边,有助于知悉周期内的异常情况。
五、业务监控告警
5.1、成功率告警
根据每个事业部的下单规律合理配置告警阈值,比如某个事业部剔除库存不足的业务失败场景后还有其他业务失败,无法一一剔除,故配置成功率连续 2 次低于 50%触发告警。
5.2、单量突增/突降
由于单个事业部流量不均,在初期单量突增或突降的规则阈值调整过程中频繁触发告警
在对某个事业部不断调整后,下单量突降配置如下,通过同比昨日和同比上周来避免单日的流量不均来减少告警触发次数,再根据总量超过一定单量来避免单量偏小情况下的阈值波动过大的场景;
单量突降告警规则配置:
单量突增告警规则配置:
六、最佳实践
6.1、商家搬仓
在业务监控初期,GOC 大盘的巡检过程中发现 A 商家的推单成功率极低,平均只有 1%是成功的,通过联系前端业务跟商家反馈,商家表示商品正在切仓,待切换完成后会停用旧 SKU 的下单。
下午再次巡检的时候该商家的推单已恢复到正常状态。
6.2、重复下单
B 商家不定时会有大量的下单失败,报错原因都是:重复提交,通过反馈业务咨询商家的下单场景,了解到的该商家是业务从商家侧拿到文件上传至 FTP 某个目录下,EDI 定时拉单,如果其中有个别单子因为某些原因下单失败的话,业务暂无法从单子列表中筛选出来,只能将原文件重复上传让异常单重试下单,这时候已下单成功的单子就会出现“重复提交”的报错信息。
6.3、库存不足
C 商家的下单成功率一直不高,基本都在 70%左右,大量的失败原因都是:库存不足,经过抽查部分单子,发现商家会不停的重试,在最后有库存的情况下都会下单成功,同样通过业务了解到商家的下单逻辑是:商家有 2B 和 2C 两个仓,商品通过采购入库单进入到 2B 仓,再通过调拨入到 2C 仓,所以存在一定的时间差会出现库存不足,待商品调拨到 2C 仓,经过不断地重试就能下单成功和正常出库。
6.4、事业部切换
在大促开门前的某一天,D 商家突发严重告警,下单成功率跌至 0%且有很大的单量,紧急排查日志发现失败原因是基础数据归属事业部错误,通过业务联系商家,反馈是商家在做事业部切换,当前推单失败的单子待切换后会进行再次推送。
6.5、商品等级调整
上面的 C 商家的 2B 仓,成功率一直在 100%,2B 业务单量少,因此经过优化后配置的告警阈值是连续 2 次小于 50%,在某一天突发严重告警,同一个单子连续请求了 2 次,因为库存不足触发了告警规则,业务反馈商家在操作某个商品的等级调整导致原需要出库的商品等级库存不足。
6.6、外部接口超时
E 商家的 O2O 下运单业务,因为商家用的是腾讯地图 GIS 信息,需要咱们去转换成内部的 GIS 信息,在调用腾讯地图的 API 时会偶发超时,如果多次失败需要研发介入排查是否有系统异常还是日常的超时原因导致的。
6.7、OAID 校验失败
F 商家突发成功率严重告警,经过排查是因为 OAID 校验失败导致的,OAID 是用来校验收货人信息的,推测是 C 端用户修改了收货人信息但商家系统未及时更新导致推送给物流的 OAID 校验失败,通过业务联系商家,反馈确实是收货人信息有更新,商家调整系统后重推单子成功下单。
6.8、揽收时间校验失败
G 商家将老单子重推送给物流,所以揽收时间都是在当前时间之前,推单失败。
6.9、入参错误
常见的商家入参错误,反馈商家确认商家系统是否有异常情况。
6.10、上游流量异常
1.6 号突发单量下降严重告警,通过总量查看确实在 18 点~18 点 45 分期间上游单量下降很多,待触发告警后去排查的时候单量已恢复正常值,联系上游反馈系统正常,总单量无变化,其实这里是留有疑问的,如果系统正常的话是不会出现单量突增和突降的情况。
在第二天更晚些时间,此监控告警再一次触发告警阈值,而且在排查和反馈的时候未恢复至正常值,此时上游反馈系统有异常,存在上线情况,正在回滚中。
可以看到在回滚后上游下发的单量有一个突增,然后恢复正常。
七、写在最后
在过去的这段日子里,我们全力投入到业务监控能力的构建和实践中。如今,我们欣喜地看到,物流大部分的 KA 商家都已成功搭建起了独立的业务监控面板。
随着不断优化的告警规则,我们可以第一时间感知并解决商家问题,确保技术和业务的同步。
然而,业务监控只是手段,而非最终目标。我们的真正使命是提升系统的可用率,进而保障商家的使用体验。
作为服务于京东物流 KA 商家的技术 BP,KA 商家研发组将继续坚定地走在这条大道上,不断探索与前行,以确保每一位 KA 商家都能享受到最佳的服务体验。
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/897c5c5e79fae70ecb3125cef】。文章转载请联系作者。
评论