运维要从过去的被动式运维向主动型运维转变,从操作型向管理型转变,从背锅式运维向价值型运维转变。当企业的规模发展到一定程度后,运维要向运营转型,从技术支撑到价值输出。
刘建明,某银行系统运维工程师,主要从事服务器、操作系统、中间件、数据库及虚拟化平台等基础设施的运维和管理工作。曾获IBMCATE,RedhatRHCA,OracleOCP,VMwareVCP等证书,在系统运维管理方面拥有丰富的经验。
前言近两年,运维人需要面对不断涌现的新兴技术和架构转型的要求,例如企业上云、分布式、容器化、双中心双活等等。随着传统企业把更多的业务向线上化和数字化发展,IT运维也面临着业务模式改变随之而来的更多要求。做好运维,除了学好新技术,更需要从运维理念、运维方式和运维视角转变等方面去适应变化。以下是我个人的一些思考。一、企业传统IT运维面临的挑战我们的传统IT运维人员在运维工作上应该能体会到了三个明显的变化。第一,运维对象越来越多随着企业推进数字化转型,新增的应用系统越来越多;随着线上业务规模扩大,应用系统不断地进行细化拆分,组件的数量越来越多;随着微服务的推行,节点朝着小而多的方向迅速发展。现在,一套应用系统有几百台服务器,几百个容器已经是常见的事情。虚拟机和容器的爆炸式扩大增长,已经不是危言耸听,而是实实在在发生的现状。这要求着运维人员投入更多的精力来保障和运维系统。传统的运维模式,例如操作文档手工运维,脚本方式手工运维,按系统类型分类运维,大量个性化特殊化运维等等,随着规模的扩大,管理的难道呈指数级增加,运维管理能力也会达到极限。这个时候,运维人员面对各种工单往往应接不暇,焦头烂额,运维没有成就感。然而要投入更多的运维人力,又加大了沟通、培训和协调等的管理成本,堆人的路已经行不通。第二,运维要求越来越高IT规模小的时候,传统运维可能还可以停留在几台服务器的搭建,基础软件的安装,日常的变更维护等等,只要保证系统的安全稳定运行即可。但是,随着企业的规模发展,对运维也会提出更高的要求,例如几百台服务器规模化的部署,几千台大批量的操作,分钟级甚至秒级的敏捷资源供给,自动化的资源扩缩等。今年疫情期间,企业为了满足线上办公的需求,要求马上提供上百台远程桌面服务器供员工线上办公;企业频繁地开展线上秒杀活动,在活动期间需要批量部署上线大量的应用服务器,活动结束马上回收;近段时间,基金开户和销售火爆,很多基金公司的应用系统几近瘫痪,如何保证及时地提供资源。在这些场景下,依靠传统的资源管理和人工操作方式已经无法满足业务对运维服务的要求。第三,运维服务用户越来越多传统企业环境下,运维仅服务于研发,研发服务于业务部门,服务用户都比较单一。现在很多企业成立了多个研发中心和测试中心,还不断地扩大分支机构,分支机构又有独立的应用系统建设需求,同时也提供IT服务给第三方公司。在这种情况下,我们的运维人员需要面对各种各样的用户环境和多种多样的用户需求,首先沟通成本会非常高,其次也无法保证能够提供一致的运维服务,第三运维质量也因为人员差异而参差不齐。以上的三个变化,对于还没准备好的传统运维人员而言,将是巨大的挑战和压力。一方面业务迅猛发展,领导不断下要求给指标;另一方面,运维人手不足,工具跟不上,平台不给力。除了上面三个因业务发展带来的规模上的变化,我们的运维也面临着如何化解新技术的压力。例如自动化运维、可视化运维、智能化运维等各种平台和工具的引入,运维人需要选择,让平台能结合各种运维场景切实发挥作用;例如云计算、容器云、大数据、分布式、区块链和大量开源软件的应用,运维需要了解原理、部署排障、融合创新;例如系统高可用技术、双活中心技术等,运维需要将它们有效落地。这些技术,需要运维人员不断地学习和跟进。传统行业的运维人员,面对眼花缭乱的运维新技术,往往不知如何入手,陷入迷茫。二、传统IT运维应该如何转变面对各种业务上和技术上的新变化,传统的运维人员应该如何应对?运维工作充满了大量的简单重复劳动,运维工作如何突围?运维人员每天忙碌,承受压力,又不被认可,运维的价值在哪里?面对以上的三个问题,我认为,运维要从过去的被动式运维向主动型运维转变,从操作型向管理型转变,从背锅式运维向价值型运维转变。当企业的规模发展到一定程度后,运维要向运营转型,从技术支撑到价值输出。要实现这三个运维转变和向运营转型,我个人认为我们应该从三个方面去做出改变,分别为改变运维理念,改变运维管理方式和改变运维知识体系。具体如下:第一、运维管理理念要改变。业务在变,需求在变,运维也要对应着改变,最重要的是在运维理念上要首先做出改变。传统的运维工作,只要做好运维支撑工作就可以了,从来不关心业务情况。现在做运维,要将对运维的认识提升到业务层面,把自己从传统的支持中心向服务中心、价值中心转变,提升IT服务供给能力,满足企业业务的发展需求。运维部门过去一直认为是花钱堆硬件的部门,就是买买买,没有什么价值。但是,随着上文提到的三个明显变化的发生,光买硬件已经无法满足业务的需求。运维不光要做到能用,还要做到好用;不光只买硬件,更要充分运用各种软件和平台来提升运维服务能力。我们的运维理念要以业务价值为导向进行转变。那么如何实现以业务价值为导向呢?怎么做能够满足业务价值导向呢?我认为我们要改变过去被动接工单的运维模式,转变为以标准服务目录,场景化服务为接口呈现的主动对外方式。让运维提供的服务,从后台展现到前台,以明确清晰的方式让用户主动进行各种选择和使用。通过服务目录,运维工作也能够保证对外服务标准的一致性。同时,通过服务目录,运维的质量和主动性也有了抓手。服务目录好不好,用户满不满意,也是评价和测量运维工作做得好坏的一个标准。服务目录只是一个对外接口,其后台所承载的运维流程、管理平台、脚本工具,积累的技术和经验,是运维真正的内功。通过深入了解用户的需求,设计梳理运维服务目录;通过服务目录,优化各种流程、建设各种平台和选择各种技术。这样面对琳琅满目的技术,我们的运维人员也有了学习技术的方向和目标。第二、运维管理方式要改变。运维理念的转变,必然带来运维管理方式的改变,但是这个改变是需要至上而下进行,需要管理层主动推动。那么,运维管理方式要改变什么?我想,首先是要整合,把制度、流程和技术进行整合,把服务器、操作系统、网络和存储等进行整合;其次是建立服务治理机制,根据PDCA方法论形成运维管理闭环;第三是建立运维数字化,让运维一目了然;第四是完善智能监控分析体系;第五提升运维自动化和智能化水平。传统企业的运维我觉得有两个维度,竖向的应用系统维度,如具体应用系统的架构设计、应用变更、监控分析、故障切换、容量管理等等,和横向的专业平台维度,如服务器硬件、存储设备、操作系统、虚拟化平台、中间件、数据库、终端等等。运维管理方式,是采用竖向运维还是横向运维,需要与企业的IT规模和发展阶段相匹配的。这两种不同的方式也是分久必合,合久必分。企业IT规模小,竖向较合适,几个人共同承担了应用系统、服务器、网络、存储和基础软件等所有的运维工作,沟通路径短,效率高;然后,随着IT规模变大,一个人无法兼顾所有技术栈的运维,于是根据技术领域进行了细化分离,让专业的人做专业的事;现在,随着新需求的产生,又需要各专业领域的运维团队紧密合作,比如云计算,容器云,动态扩缩,自动化和智能化运维等,汇合了服务器、网络、存储和中间件等技术,需要各团队通力合作。这种新运维方式下,需要相应的组织架构调整和改变来支撑,比如成立虚拟的云团队。第三,运维知识体系要改变。以上两点改变,更多的是从上而下的改变,做为运维人员也需要从自身出发进行改变,让自己的知识体系适应新的运维模式。那么运维人员要怎么做?我想运维人员要从架构视角、开发视角看运维,提升自主运维的核心技术能力。在运维知识体系和新技术落地上,twt已经给我们提供了很多资料和做了大量介绍。随着基础平台云化,容器化,以及分布式架构的逐渐应用,运维人员需要掌握的技术不再是单一的领域,而是需要多领域的融合贯通,对虚拟化、操作系统、网络、存储、监控、自动化工具和运维开发等都需要掌握。例如,我们的要求虚拟化团队,不光管理好平台,更要通过开发提升工作效率。运维人员的视角也要从更高的业务特性和开发人员需求出发,不局限于我有什么就用什么,而是要用户需要什么我们提供什么,并主动提升服务的质量和效率,主动地