客户案例|观测云助力合思信息升级新一代可观测平台
案例精彩导读
合思·易快报
合思信息是中国 SaaS 行业报销费控领军企业,其品牌产品「易快报」是国内连接型费用管理平台开创者。
案例亮点
• SaaS 化可观测平台,免运维
• 全链路可观测,可高基数采集数据
• RUM + APM + 日志,实现多维度数据统一
• 按量计费,高速迭代,随时体验新功能
1. 简单介绍一下贵公司
北京合思信息技术有限公司(简称「合思信息」)创立于 2014 年 11 月,是中国 SaaS 行业报销费控领军企业。合思信息致力于企业 SaaS 领域云产品及服务的创新,运用前沿的互联网应用技术和先进的企业管理理念,为企业提供差旅订购、电子报销、预算费控、发票管理等一站式服务,从而帮企业实现显著的降本增效,也为企业提供有力的业务决策支持数据。
2. 请介绍下对本次监测工具升级的需求背景
我们总结过以下需求:
1) 我们向最终用户提供 SaaS 化服务,业务一直在线,访问并发高。我们想实时看清系统整体状态,监测数据采集量很大,但不能影响我们业务性能;
2) 我们的服务会涉及大量用户隐私数据,因此我们对平台安全性有很高要求,最好能提供商业化 SLA;
3) 所有的基础设施都放在云上,技术栈能托管就托管,所以希望主要的监控和日志工具也能被托管,我们直接使用服务就行;
4) 我们的应用服务迭代速度很快,经常需要调整监测对象和看板,甚至更换监控工具,所以我们不会一次性长期订阅单个工具,以免之后用不上会浪费,并且要求这个工具有开放的可编程性,方便我们自己调整。
除此之外,也希望新的监测工具可以帮助我们提升运维效能:
1) 可以把各项监测数据全部聚合处理,串联分析,帮助我们快速定位问题根因;
2) 可以主动暴露出系统潜在问题或性能卡点,运维能直接拿这些数据,交给研发做进一步分析,研发也能直观看懂这些监测数据。
3. 那能否说说使用之前的监测工具时,具体碰到了哪些难点?
我们使用过很多种工具,在做 Kubernetes 环境下的指标数据分析时,使用了云服务商提供的托管 Prometheus 和 Grafana 服务;日志和链路尝试过一些比较常用的开源软件,我们自己部署,但在使用 APM 时,有过造成软件启动崩溃的情况,采样也不好,最后也没精力去深度研究。还用过些商业软件,用来监控分析前端业务,但都是一个软件实现一个功能,需要拼装使用,我们得自己去打通几个工具之间的数据通信,要管理好这些运维工具,还得花费额外的运维成本,有点得不偿失。
之前使用过的各种工具:
4. 您是怎样关注到观测云的?
我们一直在关注可观测领域的内容,发现不少关于观测云的介绍,就去研究了观测云的官网,信息挺多的,通过官网,加入了观测云社区群去提了些问题。之后就有观测云的客户经理联络我们,向我们详细介绍了观测云的产品功能和特色,我们就开始试用了。
5. 刚接触到观测云时,您对观测云的第一印象如何?
如前所述,由于之前也使用过不少监控产品,对指标、日志、链路等各方面有一定的认知,也了解可观测的概念,知道我们下一步想要的监测平台方向。与观测云进行了一次深入的技术交流后,充分了解观测云在可观测方面的想法和已经实现的功能,包括对 Kubernetes 生态的丰富支持,数据采集、联合展现以及在分析问题时候的逐步钻取,留下了深刻的印象,第一印象感觉这就是我们想要的产品,后续就立即开始进行测试。
6. 使用观测云后,哪些功能让你满意?
首推观测云的 SaaS 服务模式。
我们不用再去运维监测平台本身了,确实让我们轻松很多。而且观测云是按量计费,我们可以放心大胆地体验全部功能,随意搭配,没有选择困难症了,之后还可以持续优化调整,最终所有成本都会贴合我们的实际用量。
产品更新很快,我们提的一些改良建议,都能很快满足。
· 我们的业务日志量大,每天都有几 TB 的日志增量,下载和传递都消耗我们的业务带宽和流量。和观测云多次交流后,观测云提供了一些新的数据过滤和黑白名单机制方案,帮助我们大大提升了日志采集效率;还开通了在公有云上用内网传输日志的方案,降低了我们传输成本。
· 另外,我们也不再需要自建和维护 ES 集群储存日志,进一步降低基础建设的资源成本。
RUM + APM + 日志可以统一标签和联合分析。
观测云前端用户访问(RUM)提供自定义用户属性,与链路数据(APM)关联打通,借助 Tag(数据标签) 使得问题的分析定位更快速,灵活的关联到 Service 、Log、主机甚至是 Pod、进程。这种关联对微服务间的故障排查、接口调优至关重要。
支持服务网格。
观测云采集器兼容 Prometheus ,可以直接串连上去,拿到 Exporter 上报的数据,简单配置即可获取 Istio 指标数据,同时提供内置 Istio 视图模版,快速实现服务网格的全面观测。
7. 目前观测云在公司内部的使用情况是怎么样?
目前我们已经接入了商城的各种环境,包括开发、预发以及生产环境。观测云已经成为我们日常使用的监控手段,我们已经做了很多监控仪表盘,还有 APM 以及 RUM 的各类视图,来观测业务的实时情况。能通过各项结构化的数据(包括日志分析、APM 和 RUM 数据生成的指标)设置和业务相关的监控器,进行告警提醒。同时,我们也把日常使用过程中的一些改进建议反馈给了观测云,能够发现观测云在持续升级,迭代出更多方便用户的功能,我们非常满意。
8. 能具体分享一个,现在使用观测云的场景吗?
现在我们可以通过观测云,去主动探索系统,并找到一些问题,然后把他定义出来,作为常规探知手段,不会再经常收到一些摸不着头脑的告警。
1) 主动式定位问题:
RUM 查看器,通过筛选,查看错误的状态码的相关信息
通过详情,可以一路钻取到后端应用的情况
查看链路的详细情况
2) 通过前端用户访问的概览,查看用户访问整体情况,以及错误情况。
跳转到错误分析或者 Error 查看器
查看具体原因
3)查看用户访问的详细错误情况。
4) 详细定义事件和通知规则。
9. 您对观测云还有什么建议?
1) 观测云的功能很丰富,可以搭建出很多玩法,所以希望观测云能提供更多的可观测最佳实践,能让我们快速获得参考,应用到实际业务场景里。
2) 观测云更新非常快,有些细节光靠文档也说不清,还是得经常请教观测云专家,幸好还能去群里提问。希望观测云的社群服务能力越来越强大,吸引更多的技术用户一起参与,我们也非常乐意和其他社群用户一起交流。
最后,感谢观测云让我们拥有了一个美好的全链路可观测体验。
作者|合思信息运维总监——李先磊
观测云产品技术专家——赵刚
关于观测云
观测云是⼀个具备可观测性的统⼀实时监测平台,可帮助客⼾快速实现系统可观测,是国内率先实现 SaaS 化的可观测性产品,为客⼾的业务长时间在线不中断,提供数据化⼿段的全链路保障服务。
为帮助广大技术爱好者更好地了解全球技术趋势、可观测性最佳实践、观测云产品功能等前沿干货,我们特别成立了观测云官方社区交流群,为大家提供一个交流互动的平台。还没有入群的小伙伴,可以扫码加微信入群,一起参与到我们的技术社群来!
评论