车行易携手睿象云:告警管理体系全升级
据权威数据显示,目前国内汽车后服务市场的规模已达万亿级别。而在车主日常用车的多种生活场景中,与车辆违章相关的细分业务使用频度仅次于导航、停车、洗车等三项车后服务,这也是极具发展潜力的一个细分市场。「车行天下,快易人生」的车行易,已经成为众多服务厂商中的佼佼者。
创立于 2011 年,全国最大的违章数据处理平台的车行易违章大数据平台(以下简称:车行易),已经在线服务覆盖全国 330 多个城市,在全球拥有超过超一亿车主用户。车行易以庞大的车务数据平台为基础,集违章代办办理、行车周边、车务处理、一键挪车、实时提醒、在线加油六大服务为一体,整合线上线下车务资源打造的车务 O2O 交易服务平台。车行易始终把为有车一族全面提供安全、便捷的出行体验作为企业使命,承诺以最少的花费、最短的时间、最便捷的产品、最高的效率,为车主朋友们提供最让人满意的服务。
夯实用户体验 IT 系统先行
依托海量数据资源和具备自主知识产权的人工智能算法,车行易的智能车务已经占据国内车务处理商用市场份额 70% 以上。车主通常最在意汽车服务的效率,在过去八年,通过车行易提供的服务累计为车主节省的时间总和已经超过百亿分钟。但是,随着云计算、大数据行业发展,客户对车易行 IT 基础服务的要求越来越高。但是由于国内 IT 架构异常复杂,无论是网络还是软件服务都存在很多潜在的不稳定因素,所以能够及时发现问题,并快速反馈给 IT 人员解决,已经成为很多企业的核心诉求。
随着车行易数字平台的不断发展和数据产品的创新,整个业务运营面临了很大的挑战。在以往,车行易的运维人员主要是自己写代码、发邮件、发短信,或者使用钉钉接口来进行事故的报警与处理,不仅仅效率低下,而且缺乏对应的流程制度管理,相关人员有无认领任务无法进行确认,还容易出现各种推卸责任的现象。
此外,在业务高速发展过程中,维护一个稳定、高效的运营平台相对比较困难,所以对车行易的运维团队来说,在出现问题时能够做出响应,发挥出更多的主动性更显为重要。在 2018 年初,经过对市面相关产品的综合对比后,车行易与睿象云达成合作,部署了一站式智能告警管理平台 Cloud Alert (以下简称:CA),通过 CA 来构建基于事件驱动的流程管理制度,帮助其快速实现告警的全生命周期管理。
多端数据全面连接 执行精细化运维管理
作为目前国内领先的 SaaS 云告警平台,CA 能够实现简单快捷接入,无需复杂配置,或者开发介入,就能够帮助车行易节省人力资源,快速实现跨平台的告警管理。同时,也帮助车行易在管理事件响应方面提高了灵活性,也全方位确保了运维团队能够在出现事件时及时受到报警,并立即着手解决事件,为用户体验「保驾护航」。
1. 跨平台告警汇集
CA 已经实现了近 20 种常见的监控工具的对接,对于车行易日常使用的 Zabbix、Prometheus、Grafana 和阿里云等监控工具可以完美的对接,将告警全部在一个平台处理,更加全面,也更便于进行管理。同时配合 CA 的初级数据解析和去重功能,即可根据不同的事件源自动进行数据解析和格式化,并对重复事件进行合并,快速实现原始事件和告警的第一级降噪。
2. 多渠道通知必达,规范业务运营过程中的问责制
CA 提供多种灵活的通知方式,包括电话、短信、微信、邮件、APP 等五种告警通知方式。并且多通道的告警通知,能控制告警延迟在秒级,保障告警的及时率和到达率,这样车行易的运维人员,即使不在办公司,也能实时了解到平台的运行情况。同时,可通过车行易企业内常用的钉钉,实现跨团队的问题讨论,实现以灵活多样地通知协作方式,满足不同场景的运维管理需求。
CA 提供的告警分析的功能,能够根据应用、团队、成员三个维度进行告警内容的分析,清晰的了解到团队处理告警的平均响应时间,告警数量等指标,清晰认识车易行运维团队整体的工作情况。并且通过 CA 平台的个性化通知和分派,明确区分每个成员的职责。不同时间、不同级别、不同主机组、不同内容的告警个性分派,帮助车行易运维团队提升了运维效率和精神状态。
目前,根据车行易的业务需要,分派策略基于告警接收对象划分为主,涉及到公司多个部门,包括商务、运营、开发、运维等等。比如对于商务人员而言,他们接收到的通知包括客户到期、余额不足等;对于运营人员来说,订单量异常、第三方服务异常等是他们所关心的,而对开发中心的同学而言,他们希望能够及时了解 Log 中的异常消息等。
而作为运维人员,他们时刻需要关注服务器、数据库、服务模块、Nginx 等告警信息。而通过 CA 平台,他们就可以根据微信、钉钉、邮件、短信来进行紧急事件的处理。在工作流程方面,车行易的运维团队规定,接收告警方需要及时认领,并进行考核,全面保障了 IT 服务的稳定性和高可用性,同时也赢得用户的口碑和好评。
写在最后
车行易的运维团队负责人表示:
我们通过 Cloud Alert 这款 SaaS 告警管理产品,将很多数据的整理工作放在线上就可以完成,同时让我们评估团队的工作有据可依,让各种业务运维工作有了 KPI 考核。对车行易运维团队而言,Cloud Alert 不仅仅是通知平台,也是一个分析、管理平台。更为重要的是,使用 Cloud Alert 后,我们可以随时随地了解系统告警情况,再也无需担心老板的罚款啦。
版权声明: 本文为 InfoQ 作者【睿象云】的原创文章。
原文链接:【http://xie.infoq.cn/article/52dbb11ee30778c9782b217e1】。文章转载请联系作者。
评论