GOPS 演讲 | 如何构建现代运营与支持体系,实现团队的高效协同
2022GOPS 全球运维大会·上海站,龙智总经理杨林晶带来了主题演讲“Atlassian ITSM:构建现代运营与支持体系,实现开发、运营和业务团队的高效协同”,分享了他在企业 ITSM 体系打造方面的前瞻见解和丰富经验,以及基于 Atlassian 平台实现企业运营和支持现代化转型的实践参考。
杨林晶
龙智总经理
大家好,我是龙智总经理杨林晶。今天给大家分享的主题是基于Atlassian Jira Service Management的 ITSM 解决方案。
了解龙智
龙智是一家 DevSecOps 研发安全运营一体化解决方案提供商。
现在,中国信通院积极倡导国内企业实施落地 DevOps 研发平台和项目实践,推动企业研发运维的数字化转型,并牵头制定了一系列 DevOps 研发运营一体化标准。龙智近十年在 DevSecOps 的领域着力发展,集成各个该领域的全球主流工具,帮助企业实现大规模、敏捷、安全、开放式的软件研发与运营,以及研发运营的数字化转型。
其实大中型制造业基本上已经落地了数字化转型,反而研发事务领域,数字化转型还处于提倡阶段。(研发的)数字化转型其实就是把研发生命周期的平台系统化、数字化,包括 IT 运维,也是一样。
我们帮助研发团队和 IT 服务管理团队进行数字化转型,让这些团队提高效率,更好地协同和自动化,保证质量和交付的日期。龙智提供的研发安全运营一体化解决方案是一站式的,主要包括从咨询、定制方案、实施、部署、定制开发、培训到日常技术支持。龙智团队已经为国内 1,000 多家客户,包括很多著名的头部企业成功落地了研发安全运营一体化解决方案。
了解 Atlassian
接下来,我简单介绍一下 Atlassian 公司。
Atlassian 是一家什么样的公司?刚才主持人也说,在座的很多人都知道Jira、Confluence,这些工具就是 Atlassian 公司研发出来的,在座的各位可能正在使用,或在座的一些厂商可能会对标 Atlassian 的工具。Atlassian 本身拥有十多款领先的 DevOps、ITSM 领域的工具,此外,它还有 5,000 多款应用程序,形成一个非常强大的生态圈。随着业务的变化,你随时可以在生态圈里找到各种应用程序来满足不断变化的需求。据统计,80%的财富 500 强企业都在使用 Atlassian 公司产品。并且 Atlassian ITSM 解决方案一直得到国际权威机构的认可,Gartner 2021 年《IT 服务管理工具魔力象限》将 Atlassian ITSM 评为 “远见者”,Forrester 将 Atlassian ITSM 评为企业服务管理的“领导者”。
龙智是Atlassian公司的全球白金合作伙伴,有 21 人通过了 Atlassian 的 ACP 的认证,在亚太遥遥领先。还有 2 名的是 Atlassian 认证专家,他们至少拥有 6 本以上的 ACP 认证证书。
我今天主讲内容的标题是“构建现代运营与支持体系,实现开发、运营和支持团队的高效协同”,其实就是如何实现端到端高效协同。
IT 运营和支持面临的挑战
我先说说 IT 运营和支持面临的挑战。
在平时与客户 IT 运营团队的交流中,我们发现大家在支持公司的数字化转型计划方面承受着巨大的压力——需要快速支持,因为客户、领导给的压力很大;需要确保系统能一直在线,不宕机也不中断服务;还需要为员工、客户提供无缝的支持和完美的服务体验。
阻止大家实现以上目标的原因之一是传统的工作模式,使部门协同要跨很多的团队,部门之间的组织壁垒很大。虽然人有干劲、有能力,但组织管理是落伍的,或者人没有统一起来,再好的工具、再好的想法都很难落地。
其次现在运营的环境越来越复杂,比如互联网公司或者产品公司,其产品现在很多需要移到云服务基础上运营,云服务基础还分公有云、私有云、混合云,容器等,系统还要相互打通,需要多个团队才能完成维护,而且很可能是远程运维。所以遇到问题时,响应时间会非常紧迫。
还有工具没有打通、工具功能不好、工具数量有限,包括团队之间没有打通,流程没有疏通等,都是运营团队面临的一些挑战。
而且支持部门不仅需要应付外部客户,很多情况还需要应对自己企业内部的很多服务要求,如果做不好,员工满意度就会下降。
支持部门还面临着左移的压力。这里讲到的“左移”概念,跟研发中的不太一样。这个“左移”的概念主要是要面向最终用户,快速地实现服务。
如果不做出改变,会出现什么问题呢?
我借用 Gartner 的报告来分析一下,Gartner 有这样的预测——没有采用敏捷方法的 ITSM 团队中,约 80%的团队会发现他们的 ITSM 实践被忽略和绕过。
很多研发团队都采用了敏捷方式,运营团队却没有采用。因为运营和研发的需求不一样。研发需要快速的发布、讲究速度,运营讲究的是安全可靠优先,这就产生了矛盾。
这会使 IT 之外的团队独立启动了他们自己的服务台来做技术支持,带来了额外的复杂性。就是大家常说的影子 IT,影子 IT 是由业务主导,而不是 IT 部门、IT 人员所主导的。就是业务部门觉得服务部门不行,自己来做 IT。影子 IT 介入,会带来很多复杂性,会破坏 IT 团队已建立的流程,增加安全隐患。
所以 IT 服务团队要有敏捷的思想观点,建立平台,才能让整个团队真正实现端到端交付、运营不断迭代的效果。
现代 ITSM 体系
对于以上课题,Atlassian 有一套整体的解决方案。它的前端 Jira 之类的工具,与我们今天要讲的Jira Service Management——ITSM 工具,有着很好的原生集成,可以精简工作流,实现更好的协同。
接下来,我要讲如何通过 Atlassian 方案建立一个现代的 ITSM 体系,克服上面说的挑战。这里给大家阐述一个自主与协同的概念,就是让开发人员变得更加自主,可以更快地解决问题、交付代码;让 IT 运营团队可以安枕无忧,工作协同一致,不会给业务带来风险。
从支持的角度来说,就是让员工有自主权,可以通过他们选择的渠道快速提交请求、解决问题;并赋能其他所有团队,如人力资源、设施、财务及其他团队,因为 IT 服务管理也为公司的业务部门提供一个自主协同的平台,让他们有能力作为服务团队运营。
接下来让我说明一下如何将业务端、开发端、以及 IT 端打通。DevOps 是打通了开发的工作流程,但这肯定是不够的。
Atlassian 有Jira项目敏捷管理,所有的产品、项目、运营,全生命周期所有的事物在 Jira 上都可以找到源头;有代码的版本管理Bitbucket;业务部门提出的很多需求、变更或者文档可以在Confluence进行描述。通过这些工具打通了开发端,实现了协同,但还远远不够。
我们把产品发布出去后,需要将运营或最终用户反应的问题快速反馈到产品中,必须要用一个强大的 IT 服务管理工具。最早的时候,Atlassian 提供叫 Jira Service Desk 的产品,只是一个服务台,还没有往研发方面深入。现在,它的名字改为 Jira Service Management,一个 ITSM 管理平台。
Jira Service Management是建立在 Jira 平台上,将开发团队和 IT 团队结合起来,使他们能够更快地协作和工作。
它可以让工作清晰可见。它是一个开放的协作平台,提供了丰富的上下文信息,做决策的时候就更快、更有效了。比如在事件管理中,获得了详细上下文信息之后,就能了解事情的前因后果,然后做到快速响应,更快地解决事件。
通过 Jira Service Management,组织里的每一个团队都能成为服务团队。
实践场景分享
下面,我就一些实践场景来跟大家介绍分享。
首先是服务台请求管理。
这里也提一个“左移”的概念。这个左移的概念是,如果在一个 IT 部门里,我们假设它有 0 级、1 级、2 级、3 级的支持,0 级一般是找一个新人,进行简单的基础培训,再加上知识库的查询;1 级支持会是更加资深一点的人员;2 级可能是专业产品线的运维工程师,再后面是组长、中心负责人。这里“左移”的概念,是说你其实是不要把问题上升到领导层面,基础的人员就能干,甚至都不需要人员,就是 0 级。怎么实现?两个常见的方法是实现自动化,以及投资建立知识库,就可以实现 IT 服务管理业务上的“左移”。
服务台请求管理需要自主服务门户做得越直观、越集中越好,能够提供统一帮助、能进行授权,还能开箱即用,以及有开放的空间来分享知识。以芯片行业为例,如果一家芯片公司的客户在仿真、集成、测试的流程中需要了解所购买芯片的参数,可以通过芯片公司预先配置好的知识库轻松获得这些信息,实现我们前面提到的 0 级的请求管理,不需要来回沟通就能自主地获得帮助、解决问题。
熟悉 Atlassian 产品的人都知道它的知识库,也就是Confluence,特别强大。它可以从整个站点的服务项目中搜索结果,不仅仅是机器人搜索,还支持全网检索。它可以匿名,也可以设权限进行分析。通过知识库,团队可以实时协作编辑,在线评论提供反馈,并同步其他支持团队。作为 IT 部门,我们要持续学习,不断地积累解决问题的新知识,在平台上进行分享,丰富知识库。
此外为了更加便捷高速地反馈问题及解决问题,我司(龙智)研发了一系列移动端 app 和Jira Service Management以及 Confluence 集成的插件,用户可以通过移动办公软件,如企业微信、钉钉、飞书之类的发送请求。很多问题,运维人员可通过内置的知识库来转接答案,快速地发给客户,帮助企业更好地实现运维“左移”。
Atlassian 事件和问题管理的实践
事件跟问题是有区别的,事件是计划外发生的问题,是比如突发的系统中断,就叫做事件。在日常的 IT 运维中,首先要快速把事件处理完,再寻找起因。事件牵扯的原因可能很复杂,有直接原因、间接原因、人为原因等。在Atlassian的 Jira Service Management 中,继续追溯或是查找事件根本原因的步骤叫做问题管理。
事件和问题管理一般分为捕获事件,通知和升级、交流调查,解决和学习几个阶段。
首先,Jira Service Management 使客户或员工可以轻松地在服务台门户中报告事件,也能捕获来自监控系统或者集成的信号中的事件,例如 Datadog、Sumo Logic 和 Nagios,当内存不够、CPU 不够或者网络出现问题时,产生的事件或告警信息会自动地往上一级传递。
Atlassian Jira Service Management 集成了 Opsgenie 和 Statuspage 这两款产品,在事件管理中发挥了很大的作用。
Opsgenie 可以集中开发和运营团队的力量来处理事件,帮助你根据企业的实际业务情况,通过设定待命时间表、流转路径和升级策略,有序管理事件,既确保团队不会错过关键警报和主要事件,也避免无关紧要的警报和通知。同时,通知可在多个渠道触发。
Statuspage 能向最终客户和内部员工可视化地展现整个事件的状态,比如哪些系统已经在恢复、处于什么过程等。并且这些通知都可以跟主流社交工具集成,团队可以通过常用的沟通渠道顺畅地进行沟通,如企业微信、飞书、钉钉、Slack 等。
Atlassian Jira Service Management 还有一个比较厉害的地方,(事件管理)单单运维团队不够,如果跟开发团队关联,可以通过开发团队使用的 Bitbucket,发现开发中产生的问题,甚至查看开发提交的分支的详细信息,这些信息都可以在这个平台上得到展现。通过运营上下的关联,可以(将事件的原因)切分得更快、更容易。
变更管理面临的挑战
变更管理可能是开发和运维人员之间产生摩擦的最大领域。因为 KPI 指标不一样,公司要求开发人员不断迭代、频繁发布,运维认为这么复杂的东西肯定要慎重,既没有好的自动化工具,也没有好的流程,摩擦就产生了。
如果变更流程定得不科学,会导致变更管理缓慢且混乱。
如何改善变更流程?我认为预先批准和自动化可以在不影响风险的情况下让变更更快、更加灵活。
这里我想强调一个理念——好马配好鞍。大家在实践变更管理时的理念即使都没有问题,但也一定需要好的工具。
这里我介绍一下Jira Service Management的风险评估引擎。它充当分拣站,把变更的风险分为低风险、中风险和高风险。低风险设定好流程,有的步骤可以自动化,比如没有问题就直接推送到生产环境中。高风险可能需要多方参与,比如核心的业务迁移到云平台,基础平台要进行切换、基础架构或是中间层要进行升级,都要慎重处理。
借助风险评估引擎,你可以把业务切分核心业务和非核心业务,对于核心业务设置高风险工作流。
那么中风险流程是怎样的呢?Atlassian 有个渗透的说辞可以相当于中风险的场景考虑。什么叫渗透?当系统要推送时,可以先在低层环境中运行一段时间,如果没有问题,再直接推送到生产环境中。举个例子,像是灰度发布的场景,电商平台经常用的策略,通过用户区域,可以先把迭代新产品发布到到流量少的区域,应用一段时间后,再推过更多的用户区域及到全部区域。
变更管理可以通过工具,与前端的研发运营一体化连在一起进行变更管理。
如果是使用 DevOps 工具的团队,还可以与流行的 CI/CD 工具集成,可以使用 Jenkins,Atlassian 的 Bamboo,也可以使用 Jenkins 企业版——CloudBees,让开发人员在不用离开 CI/CD 工具的情况下,跟踪请求的进度。
资产和服务的配置管理
提到资产和服务的配置管理,会涉及到 CMDB 这个概念。CMDB 即 Configuration Management Database,中文是配置管理数据库。这是一个逻辑数据库,包含了配置项全生命周期的信息以及配置项之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系)。CMDB 存储并管理企业 IT 架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程来保证数据的准确性。
传统的 CMDB 是有局限的,如果 CMDB 能跟平台上下文信息相关联,就能实现可视化运营,这也被称为洞察力。洞察力提高,就能快速判断问题存在于哪里。
Atlassian 在Jira Service Management嵌入了一个叫 Insight 的工具,两者结合使用,可以创建联合 CMDB 来支持组织的配置和资产管理需求,使数据团队能够管理其 IT 基础架构,同时使业务领导者能够报告客户、库存、财务、变更管理等。
通过 Insight 工具,可将相关的软件开发洞察力,与相关的基础构架信息相结合,为配置管理提供去中心化、统一服务、以团队为中心的方法。
Forrester 曾经发布过《Atlassian ITSM 总体经济影响》报告,指出如果从传统的 ITSM 工具切换到 Jira Service Management,投资回报率达到 246%;并且可以缩短交付时间,因为 IT 运维、平台和变更都实现自动化,流程舒畅,工具打通了,交付时间自然而然就会缩短。此外,洞察力提高了,效率也自然提高。
龙智 Atlassian ITSM 解决方案
龙智基于 Atlassian 平台的解决方案,结合 Atlassian Jira Service Management,将开发、IT 运营和业务团队置于一个统一的平台中,以实现更好的协作。
我们结合 Atlassian 的 Jira,Confluence,Bitbucket 产品,以及它的 ITSM 工具 Jira Service Management,再集成国内主流的监控工具,形成龙智Atlassian ITSM解决方案。
在此基础上,我们还集成安全漏洞和开源组件扫描工具、静态代码扫描分析工具来确保代码开发阶段的安全,让开发左移,越左移修复漏洞的成本越低。同时,我们还集成自动化测试工具,提高研发效率、保证质量。
Atlassian 拥有完整的生态,龙智作为其中一部分,自主研发了多款 Atlassian 插件产品,不仅为国内使用 Atlassian 的客户提供了便利,还受到全球二十多个国家的企业的欢迎,其中不乏许多 500 强企业。
最后,相信大家现在已经了解龙智是一家 DevSecOps 研发安全运营一体化解决方案提供商,也是一个软件研发及管理工具集成商,主要集成全球主流的工具,希望今后跟在座的各位和所服务的企业合作,也希望各位越来越好。谢谢大家!
如需了解 DevSecOps 行业最新动态与消息,请立即联系DevSecOps研发安全运营一体化解决方案供应商——龙智:
官网:www.shdsd.com
电话:400-666-7732
邮箱:marketing@shdsd.com
评论