GOPS演讲 | 如何构建现代运营与支持体系,实现团队的高效协同
2022GOPS全球运维大会·上海站,龙智总经理杨林晶带来了主题演讲“Atlassian ITSM:构建现代运营与支持体系,实现开发、运营和业务团队的高效协同”,分享了他在企业ITSM体系打造方面的前瞻见解和丰富经验,以及基于Atlassian平台实现企业运营和支持现代化转型的实践参考。
了解龙智
龙智是一家DevSecOps研发安全运营一体化解决方案提供商。
现在,中国信通院积极倡导国内企业实施落地DevOps研发平台和项目实践,推动企业研发运维的数字化转型,并牵头制定了一系列DevOps研发运营一体化标准。龙智公司近十年在DevSecOps的领域着力发展,集成各个该领域的全球主流工具,帮助企业实现大规模、敏捷、安全、开放式的软件研发与运营,以及研发运营的数字化转型。
其实大中型制造业基本上已经落地了数字化转型,反而研发事务领域,数字化转型还处于提倡阶段。(研发的)数字化转型其实就是把研发生命周期的平台系统化、数字化,包括IT运维,也是一样。
我们帮助研发团队和IT服务管理团队进行数字化转型,让这些团队提高效率,更好地协同和自动化,保证质量和交付的日期。龙智提供的研发安全运营一体化解决方案是一站式的,主要包括从咨询、定制方案、实施、部署、定制开发、培训到日常技术支持。龙智团队已经为国内1,000多家客户,包括很多著名的头部企业成功落地了研发安全运营一体化解决方案。
了解Atlassian
接下来,我简单介绍一下Atlassian公司。
IT运营和支持面临的挑战
我先说说IT运营和支持面临的挑战。
在平时与客户IT 运营团队的交流中,我们发现大家在支持公司的数字化转型计划方面承受着巨大的压力——需要快速支持,因为客户、领导给的压力很大;需要确保系统能一直在线,不宕机也不中断服务;还需要为员工、客户提供无缝的支持和完美的服务体验。
还有工具没有打通、工具功能不好、工具数量有限,包括团队之间没有打通,流程没有疏通等,都是运营团队面临的一些挑战。
而且支持部门不仅需要应付外部客户,很多情况还需要应对自己企业内部的很多服务要求,如果做不好,员工满意度就会下降。
支持部门还面临着左移的压力。这里讲到的“左移”概念,跟研发中的不太一样。这个“左移”的概念主要是要面向最终用户,快速地实现服务。
如果不做出改变,会出现什么问题呢?
我借用Gartner的报告来分析一下,Gartner有这样的预测——没有采用敏捷方法的ITSM团队中,约80%的团队会发现他们的ITSM实践被忽略和绕过。
很多研发团队都采用了敏捷方式,运营团队却没有采用。因为运营和研发的需求不一样。研发需要快速的发布、讲究速度,运营讲究的是安全可靠优先,这就产生了矛盾。
这会使IT之外的团队独立启动了他们自己的服务台来做技术支持,带来了额外的复杂性。就是大家常说的影子IT,影子IT是由业务主导,而不是IT部门、IT人员所主导的。就是业务部门觉得服务部门不行,自己来做IT。影子IT介入,会带来很多复杂性,会破坏IT团队已建立的流程,增加安全隐患。
所以IT服务团队要有敏捷的思想观点,建立平台,才能让整个团队真正实现端到端交付、运营不断迭代的效果。
现代ITSM体系
对于以上课题,Atlassian有一套整体的解决方案。它的前端Jira之类的工具,与我们今天要讲的Jira Service Management——ITSM工具,有着很好的原生集成,可以精简工作流,实现更好的协同。
接下来,我要讲如何通过Atlassian方案建立一个现代的ITSM体系,克服上面说的挑战。这里给大家阐述一个自主与协同的概念,就是让开发人员变得更加自主,可以更快地解决问题、交付代码;让IT运营团队可以安枕无忧,工作协同一致,不会给业务带来风险。
从支持的角度来说,就是让员工有自主权,可以通过他们选择的渠道快速提交请求、解决问题;并赋能其他所有团队,如人力资源、设施、财务及其他团队,因为IT服务管理也为公司的业务部门提供一个自主协同的平台,让他们有能力作为服务团队运营。
接下来让我说明一下如何将业务端、开发端、以及IT端打通。DevOps是打通了开发的工作流程,但这肯定是不够的。
Atlassian有Jira项目敏捷管理,所有的产品、项目、运营,全生命周期所有的事物在Jira上都可以找到源头;有代码的版本管理Bitbucket;业务部门提出的很多需求、变更或者文档可以在Confluence进行描述。通过这些工具打通了开发端,实现了协同,但还远远不够。
我们把产品发布出去后,需要将运营或最终用户反应的问题快速反馈到产品中,必须要用一个强大的IT服务管理工具。最早的时候,Atlassian提供叫Jira Service Desk的产品,只是一个服务台,还没有往研发方面深入。现在,它的名字改为Jira Service Management,一个ITSM管理平台。
Jira Service Management是建立在Jira平台上,将开发团队和IT团队结合起来,使他们能够更快地协作和工作。
它可以让工作清晰可见。它是一个开放的协作平台,提供了丰富的上下文信息,做决策的时候就更快、更有效了。比如在事件管理中,获得了详细上下文信息之后,就能了解事情的前因后果,然后做到快速响应,更快地解决事件。
通过Jira Service Management,组织里的每一个团队都能成为服务团队。
实践场景分享
下面,我就一些实践场景来跟大家介绍分享。
首先是服务台请求管理。
这里也提一个“左移”的概念。这个左移的概念是,如果在一个IT部门里,我们假设它有0级、1级、2级、3级的支持,0级一般是找一个新人,进行简单的基础培训,再加上知识库的查询;1级支持会是更加资深一点的人员;2级可能是专业产品线的运维工程师,再后面是组长、中心负责人。这里“左移”的概念,是说你其实是不要把问题上升到领导层面,基础的人员就能干,甚至都不需要人员,就是0级。怎么实现?两个常见的方法是实现自动化,以及投资建立知识库,就可以实现IT服务管理业务上的“左移”。
服务台请求管理需要自主服务门户做得越直观、越集中越好,能够提供统一帮助、能进行授权,还能开箱即用,以及有开放的空间来分享知识。以芯片行业为例,如果一家芯片公司的客户在仿真、集成、测试的流程中需要了解所购买芯片的参数,可以通过芯片公司预先配置好的知识库轻松获得这些信息,实现我们前面提到的0级的请求管理,不需要来回沟通就能自主地获得帮助、解决问题。
熟悉Atlassian产品的人都知道它的知识库,也就是Confluence,特别强大。它可以从整个站点的服务项目中搜索结果,不仅仅是机器人搜索,还支持全网检索。它可以匿名,也可以设权限进行分析。通过知识库,团队可以实时协作编辑,在线评论提供反馈,并同步其他支持团队。作为IT部门,我们要持续学习,不断地积累解决问题的新知识,在平台上进行分享,丰富知识库。
此外为了更加便捷高速地反馈问题及解决问题,我司(龙智)研发了一系列移动端app和Jira Service Management以及Confluence集成的插件,用户可以通过移动办公软件,如企业微信、钉钉、飞书之类的发送请求。很多问题,运维人员可通过内置的知识库来转接答案,快速地发给客户,帮助企业更好地实现运维“左移”。
Atlassian事件和问题管理的实践
事件跟问题是有区别的,事件是计划外发生的问题,是比如突发的系统中断,就叫做事件。在日常的IT运维中,首先要快速把事件处理完,再寻找起因。事件牵扯的原因可能很复杂,有直接原因、间接原因、人为原因等。在Atlassian的Jira Service Management中,继续追溯或是查找事件根本原因的步骤叫做问题管理。
事件和问题管理一般分为捕获事件,通知和升级、交流调查,解决和学习几个阶段。
首先,Jira Service Management 使客户或员工可以轻松地在服务台门户中报告事件,也能捕获来自监控系统或者集成的信号中的事件,例如Datadog、Sumo Logic和Nagios,当内存不够、CPU不够或者网络出现问题时,产生的事件或告警信息会自动地往上一级传递。
Atlassian Jira Service Management集成了Opsgenie和Statuspage这两款产品,在事件管理中发挥了很大的作用。
Opsgenie可以集中开发和运营团队的力量来处理事件,帮助你根据企业的实际业务情况,通过设定待命时间表、流转路径和升级策略,有序管理事件,既确保团队不会错过关键警报和主要事件,也避免无关紧要的警报和通知。同时,通知可在多个渠道触发。
Statuspage能向最终客户和内部员工可视化地展现整个事件的状态,比如哪些系统已经在恢复、处于什么过程等。并且这些通知都可以跟主流社交工具集成,团队可以通过常用的沟通渠道顺畅地进行沟通,如企业微信、飞书、钉钉、Slack等。
Atlassian Jira Service Management还有一个比较厉害的地方,(事件管理)单单运维团队不够,如果跟开发团队关联,可以通过开发团队使用的Bitbucket,发现开发中产生的问题,甚至查看开发提交的分支的详细信息,这些信息都可以在这个平台上得到展现。通过运营上下的关联,可以(将事件的原因)切分得更快、更容易。
变更管理面临的挑战
变更管理可能是开发和运维人员之间产生摩擦的最大领域。因为KPI指标不一样,公司要求开发人员不断迭代、频繁发布,运维认为这么复杂的东西肯定要慎重,既没有好的自动化工具,也没有好的流程,摩擦就产生了。
如果变更流程定得不科学,会导致变更管理缓慢且混乱。
如何改善变更流程?我认为预先批准和自动化可以在不影响风险的情况下让变更更快、更加灵活。
这里我想强调一个理念——好马配好鞍。大家在实践变更管理时的理念即使都没有问题,但也一定需要好的工具。
这里我要介绍一下Jira Service Management的风险评估引擎。它充当分拣站,把变更的风险分为低风险、中风险和高风险。低风险设定好流程,有的步骤可以自动化,比如没有问题就直接推送到生产环境中。高风险可能需要多方参与,比如核心的业务迁移到云平台,基础平台要进行切换、基础架构或是中间层要进行升级,都要慎重处理。
借助风险评估引擎,你可以把业务切分核心业务和非核心业务,对于核心业务设置高风险工作流。
那么中风险流程是怎样的呢?Atlassian有个渗透的说辞可以相当于中风险的场景考虑。什么叫渗透?当系统要推送时,可以先在低层环境中运行一段时间,如果没有问题,再直接推送到生产环境中。举个例子,像是灰度发布的场景,电商平台经常用的策略,通过用户区域,可以先把迭代新产品发布到到流量少的区域,应用一段时间后,再推过更多的用户区域及到全部区域。
变更管理可以通过工具,与前端的研发运营一体化连在一起进行变更管理。
如果是使用DevOps工具的团队,还可以与流行的CI/CD工具集成,可以使用Jenkins,Atlassian的Bamboo,也可以使用Jenkins企业版——CloudBees,让开发人员在不用离开CI/CD工具的情况下,跟踪请求的进度。
资产和服务的配置管理
提到资产和服务的配置管理,会涉及到CMDB这个概念。配置管理数据库( Configuration Management Database,CMDB)是一个逻辑数据库,包含了配置项全生命周期的信息以及配置项之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系)。
CMDB存储与管理企业IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。在实际的项目中,CMDB常常被认为是构建其它ITIL流程的基础而优先考虑,ITIL项目的成败与是否成功建立CMDB有非常大的关系。
传统的CMDB是有局限的,如果CMDB能跟平台上下文信息相关联,就能实现可视化运营,这也被称为洞察力。洞察力提高,就能快速判断问题存在于哪里。
Atlassian在Jira Service Management嵌入了一个叫Insight的工具,其实就是CMDB,可收集大量DevOps工具的动态信息,来扩充、丰富数据源。通过Insight工具,可将相关的软件开发洞察力,与相关的基础构架相关信息相结合,为配置管理提供去中心化、统一服务、以团队为中心的方法。
Forrester曾经发布过《Atlassian ITSM 总体经济影响》报告,指出如果从传统的ITSM工具切换到Jira Service Management,投资回报率达到246%;并且可以缩短交付时间,因为IT运维、平台和变更都实现自动化,流程舒畅,工具打通了,交付时间自然而然就会缩短。此外,洞察力提高了,效率也自然提高。
龙智Atlassian ITSM解决方案
龙智基于Atlassian平台的解决方案,结合Atlassian Jira Service Management,将开发、IT 运营和业务团队置于一个统一的平台中,以实现更好的协作。
我们结合Atlassian的Jira,Confluence,Bitbucket产品,以及它的ITSM工具Jira Service Management,再集成国内主流的监控工具,形成龙智Atlassian ITSM解决方案。
在此基础上,我们还集成安全漏洞和开源组件扫描工具、静态代码扫描分析工具来确保代码开发阶段的安全,让开发左移,越左移修复漏洞的成本越低。同时,我们还集成自动化测试工具,提高研发效率、保证质量。