写点什么

客户案例|生学教育依托观测云打造可观测智慧教育新生态

作者:观测云
  • 2022 年 7 月 26 日
  • 本文字数:2760 字

    阅读完需:约 9 分钟

客户案例|生学教育依托观测云打造可观测智慧教育新生态

生学教育

成立于 2015 年,是一家互联网教育科技企业,目前拥有 5000 万以上的学生市场资源。生学教育以大数据为基础,围绕教、学、考、评、管、培全业务流程,利用互联网科技高效整合,实现基础数据互联互通,积极构建智慧教育新生态,推动区域教育教学模式创新发展。

案例亮点

  • 快速部署,无需调整业务代码

  • 全链路可观测,一个平台可查看所有

  • 配合压测,快速发现问题

  • 用数据沟通,团队效能明显提升


Q&A

简单介绍一下贵公司

生学教育成立于 2015 年,是一家互联网教育科技企业,主要为学生、学校、各级教育管理部门、企业提供教育数据标准化、教育资源数字化、教育教学精准化、教育管理精细化服务。拥有 5000 万以上的学生市场资源。在 2020 年,博瑞传播作为成都市国有控股上市公司及文化媒体类资本运作平台,以 2.1 亿收购生学教育 60% 股权。


生学教育以大数据为基础,围绕教、学、考、评、管、培全业务流程,利用互联网高效整合区域及校园各级各类应用系统、重构业务流程、打造系统性变革,实现基础数据互联互通,推动区域教育教学模式的创新发展。并且,积极构建智慧教育新生态,涵盖 5 大服务场景,包括智慧教学、智慧管理、智慧家校、智慧研培和智慧数据等。


Q&A

原监控体系想要继续升级的方向

核心系统主要依托于阿里云和华为云作为底层基础资源平台,使用的监控工具有:云平台上的自有云监控,Zabbix 作为底层基础监控,Prometheus 用于容器环境的监控,Grafana 作为指标看板,阿里云的 SLS 作为日志平台。所有的告警数据通过 Grafana 的 Altermanager 和 SLS 对接,通过 SLS 实现钉钉、邮件和语音等的告警信息发送。


想持续升级的方向:


1)所有维度的数据可以显示在一个界面上,关联查询。现在系统监控的各项数据是分散在不同的平台上。这些数据不能有效整合进行关联分析,需要通过登录到不同的监控界面去做查看。当运维人员收到系统告警信息后,首先是通过告警信息带有的 IP 地址及报错相关的内容,登录到 SLS 上做相关日志的查看。为了进一步分析问题、排查故障,需要登录到不同的监控平台,包括云监控界面、Zabbix 、Grafana 、远程 SSH 到不同的云主机上做问题排查,不容易查看到关联问题。


2)可以快速聚集指定时间段的所有设备信息。现在需要通过问题发生的时间点,到各个监控平台上再手动去选取对应的时间范围来提取相关信息做进一步分析。整个操作繁琐,效率不高,拉长了定位和解决问题的时间。


3)提升对应用链路追踪的能力。针对链路观测部分,尝试过自己开发链路埋点和采集,在使用过程中,因为链路观测的透传性不佳,对应用性能的影响较大,投入产出比不高等因素考虑,没有继续做进一步的链路观测自研开发。也使用过云厂商提供的自研 APM 工具,但资源消耗较高,还经常造成应用启动变慢,所以仅在特定需求下偶尔开启,整体效果不佳。


Q&A

为什么选择关注观测云

经过与观测云团队交流后,对其带来的可观测理念比较认可,特别是对观测云提供的前后端全链路可观测,统一平台的数据融合分析能力印象比较深刻。可以实现让系统运行状态真正白盒化,方便快捷地找到系统的潜在问题和瓶颈点,快速优化,帮助提升系统运行的整体稳定性。


观测云 SaaS 服务的测试开通挺方便的,所以交流后我们就立刻试用了。


Q&A

可以简单介绍一下观测云的主要使用场景吗?

考试阅卷是主要的业务场景,特别是针对大考的情况,需要保障系统在市州进行大考期间在大并发情况下的稳定运行。所以,一般在大考前都需要对系统进行压测。通过压测的结果,来进行系统的优化。


在这个实际的场景引用了观测云。通过观测云的服务链路观测功能,以及能统一基础资源和其他数据的关联分析的能力,能够在压测的过程中帮助快速感知和定位整个服务链路中存在的瓶颈点和问题点。观测云打出的数据关联视图,让开发也能快速看懂并做出应对调整,保障系统在大并发下稳定高效的运行。


Q&A

能具体展示一下观测云使用场景的细节吗?

❖ 场景一

考试阅卷包括以下 6 个重要的服务功能。压测的过程中会重点关注这几个服务相关的性能和在测试过程中出现的问题:

  1. 考:基础信息录入

  2. 扫:答题卡的扫描

  3. 阅:老师对主观题的阅卷打分

  4. 计算:对考试结果(针对学生、老师、考场试卷等)进行各种维度的分析计算和统计

  5. 发布:发布结果

  6. AI 提分手册:提供测评分析服务作为有参考价值的提升策略


压测一般会以 50 万的阅卷数量作为峰值考虑,通过设置 JMeter 为 5000 的并发压测。在没有用观测云以前,整个压测的过程需要通过很多不同的监控界面去看监控数据和日志。特别是出现问题时,定位问题比较低效,还要拿一堆截图或者日志输出给开发,沟通起来很麻烦。


观测云的使用和数据接入比较方便,无需对业务代码进行调整,通过简单的配置快速接入了后端的应用服务。在压测的过程中,只需要在观测云的一个界面里,就能立即查看在压测过程中,应用服务运行的相关重要指标。



通过自动生成的拓扑图能方便查看各个服务间的调用关系。以及可以通过不同的指标维度的筛选,快速观测到各个服务的相关运行状态。



同时,通过进一步下钻能看到相关服务更详细的数据。比如,可以直观的看到是哪一层调用耗时,是为什么耗时。通过 Span 的信息,可以知道数据访问层到底是哪个 SQL 执行比较慢。对于排查和快速定位问题点就非常的方便快捷了。



以前在压测中出现问题,主要还是依赖人员的经验来定位问题,效率不高,一般需要半个小时左右或者更久。通过使用观测云后,只要服务运行数据采集上来后,基本就能很快定位到问题,直接可见。


❖  场景二

针对成绩计算的场景。当前主要是通过一个基于 Java 应用的计算平台,存在大量并行调用和计算。在压测中,比较关注这个计算平台在调用链路中可能存在的性能瓶颈,从而进行性能优化。在没有使用观测云以前,主要是通过在整个过程中的不同位置增加日志的埋点和内容,来进行问题定位,效率并不高。


通过观测云的链路功能,能够有效地协助,快速定位计算平台整个服务调用过程中的瓶颈点。通过数据说话,也降低了问题的澄清成本。让开发能快速理解到问题点,从而进行对应的性能优化。把从原来计算出结果需要半天的时间缩短到小时级别。后面经过进一步发现和优化问题,缩短到现在的 10 分钟左右。计算平台的整体性能得到了大幅度的提高。


Q&A

未来,对观测云的使用有什么规划吗?

系统的可观测性是生学教育未来重点建设的能力之一。通过在压测场景中的使用,对观测云的理念和产品能力有了进一步的了解。生学教育后续会和观测云进一步合作,一起来构建生学教育整体系统的可观测性能力,计划接入线上环境中的前端( RUM )和日志等数据,实现全链路可观测。同时,会基于观测云改造对核心系统的运行看板、监控告警等,实现从宏观对业务系统运行状态的全面感知,用高基数采集掌控系统运行细节。希望通过全面的可观测能力提升系统的稳定性和整体运行效率。


作者|生学教育 IT 负责人——易宏宇

观测云产品技术专家——涂程

用户头像

观测云

关注

还未添加个人签名 2021.02.08 加入

云时代的系统可观测平台

评论

发布
暂无评论
客户案例|生学教育依托观测云打造可观测智慧教育新生态_观测云_InfoQ写作社区