首页 首页 人工智能 查看内容

浅谈气象业务系统运行维护工作及其发展方向

木马童年 2019-5-17 12:05 3 0

1.引言:问题的提出 (1) 什么是业务系统的运行维护管理 业务系统存在的价值在于其运行结果能够完成相关的业务目标。从这个意义上说,业务系统管理所关注的重点应当是业务系统的工作状态、运行效果以及与之直接或间 ...

1.引言:问题的提出

(1) 什么是业务系统的运行维护管理

业务系统存在的价值在于其运行结果能够完成相关的业务目标。从这个意义上说,业务系统管理所关注的重点应当是业务系统的工作状态、运行效果以及与之直接或间接相关的各个方面,如:业务系统自身的能力、工作的环境等等。

仅仅关注运行结果,还是在关注结果的同时关注工作状态,以期通过良好工作状态来获得良好运行结果,这是两种不同的管理理念和工作机制。前者对业务系统本身的状态并不看重,即便是一个百病缠身的系统,只要通过各种手段能够使其完成任务,得到结果,便认为已达到目标。后者则在系统完成业务工作的前提下,着重关注系统自身的状况,不断调整系统自身的能力,弥补自身的缺陷,使其始终处于健康状态之中,通过尽可能多地凭借系统自身的能力(而不是外力)来完成业务工作。这里的后者属于业务系统的持续改进,而前者便是单纯的业务系统的运行维护管理。

需要厘清的是:业务系统的持续改进和单纯运维,属于管理理念和工作机制范畴,而业务系统的运行维护,则是我们整个业务工作中不可或缺的重要工作内容。即:一个是工作方法,一个是工作内容,两者不可混淆。本文所讨论的,是业务系统运行维护工作--即”工作内容“所存在的问题以及未来的发展趋势预测。

(2)单纯业务系统运行维护管理的特点

到目前为止,气象行业中相当数量的业务系统管理方式属于单纯运维的范畴,即:业务系统一旦投入业务运行,便不再对其进行改动,而是倾全力维持其正常运行,以维护的手段(而不是靠系统自身的能力)排除运行中所出现的系统自身无法解决的问题,直至新系统上线,替换掉原有系统为止。

单纯运行维护管理所表现出来的一个突出特征是:系统一旦建成,其能力范围便固定下来,不再增加或变动;所有系统自身无法解决的问题全部由运行维护工作予以解决。随着时间的推移和需求的变化,系统在运行过程中所积累的问题越来越多,相应地系统的运行维护成本便越来越高,直至使用者无法承受,痛下决心以新系统更替掉该系统时为止。

(3)国家气象信息中心业务系统运行维护工作现状简析

作为国家一级的IT专职部门,国家气象信息中心对业务系统运行维护管理工作是比较重视的。自上世纪八十年代起,其所建设的所有具有一定规模的业务系统,基本都配有用于系统运行维护管理的工作平台--监视系统。然而即便如此,仍存在以下问题:

* 孤立建设,布局分散:

业务系统建设目标的明确性和有限性,使得其所配套建设的监视系统的关注对象只可能是系统本身。而统一规划及标准的缺失又使得系统设计者无法从整体上考虑全中心乃至全行业的业务运维布局,其目光只可能局限于本系统范围。于是随着业务系统一个又一个地建设,其各自所配套的彼此各不相关的监视系统也一个又一个地被建造出来并各自孤立地投入运行。

* 对应用的监视相对薄弱:

现有的各监视系统共有的特点是:对设备运行状态的监视方法和手段较为完备,相对而言,对于作为业务系统灵魂的应用系统的状态监视则相对薄弱。

* 自动化程度不高:

目前大部分监视系统的功能仅限于发现故障或问题,而在确定故障点、分析故障原因乃至提供参考解决方案等方面则相对较弱,自动化和智能化程度不高。

2.业务系统运维工作的实质和种类

运行维护的目的是确保业务系统在运行期间的正常工作。而所谓正常工作,是指系统在运行期间不发生故障或即便出现故障也能够及时排除,不致因故障而影响业务工作的正常开展。这里所说的故障,广义上讲,就是系统所面对的问题已经超出了系统处理能力的极限范围,从而导致系统出现信息错误、系统运行失败、系统崩溃甚至相关设备的损毁等现象。从这个意义上说,系统运行维护实质上有两层含义:其一是借助系统以外的力量,协助系统完成系统自身能力所不具备,但又必须完成的工作。其二是系统维护者根据实际需要对系统进行的能力补充。

由此可以看出,运行维护工作之所以存在,是因为其所对应的业务系统的能力无法满足实际需要;实际上,如果一个系统的能力足够强大,则该系统在运行时是不需要对其进行维护的。然而现实情况是,任何一个系统的处理问题的能力都是相对有限的,所以任何一个系统在其运行过程中,或多或少地总需要对其进行相应的维护工作。

(1)运行维护的工作范围和大致内容

由于气象业务系统的主体是信息系统,因此气象业务系统的运行维护工作范围主要是对各类气象信息业务系统的运行维护。

一个较为完整的信息系统模型大致由信息本体、输入、信息处理、输出、过程控制和结果反馈等环节(或要素)组成。因此做为信息系统的大部分气象业务系统而言,其运行维护的逻辑对象主要包括:信息本体、系统(含输入输出环节、信息处理环节、过程控制和结果反馈环节等)以及系统的运行平台。

通常意义上运行维护工作由三部分内容:

* 其一是看护:即系统运行过程中在遇到各种超出其自身处理能力的情况时,通过借助已提前预备的该系统以外的资源(或系统)能够及时处理这些情况,从而保证本系统不至因自身能力的局限而影响业务的正常运行。

* 其二是保养:即在系统运行间歇(或运行过程中)对系统自身状况(自身的运行条件)的恢复,这些状况(或条件)是系统正常运行所应当具备,而且在系统运行时被削弱甚至损毁的。

* 其三是补充,即通过一段时间运行中所遇问题而显现出来的系统在能力方面的缺陷,对系统进行能力方面的补充。

(2)运行维护工作中的”看护“

我们可将系统运行过程中无法依靠自身能力解决的问题分为两类:

* 一类是系统设计及建设过程中由于考虑不周或问题过于复杂,使得系统在这方面的能力虽然具备,但没有达到实际要求的程度,从而导致系统在实际运行中由于自身能力的不够强大(或缺陷),必须借助外部力量来协助处理相应的问题。如数据库系统的错报更正能力,由于错报的类型千奇百怪,系统的容错能力难以(甚至永远无法)达到解决全部错报更正的目标。这类问题是由于系统的能力缺陷所产生的。

* 第二类是这些问题超出了系统所设计的能力范围,系统自身根本不具备处理(或解决)这些问题的能力;由于这些问题的出现,使得系统的正常运行受到了影响,因而不得不借助外力予以及时解决。如数据库系统运行过程中的网络故障问题,该问题显然超出数据库的管辖范围,但该故障却直接严重影响数据库的正常运行,因此从数据库运行维护的角度看,对此故障应予以及时处理;而数据库系统当然不具备处理网络故障的能力,故而必须借助于外力。这类问题是由于系统能力范围的局限所产生的。

无论是”能力强度缺陷“类问题,还是”能力范围局限“类问题,都是系统单靠自身能力无法解决的。系统在运行中一旦遇见这些问题,只有凭借外力予以解决;而解决的效果如何,及时与否,直接关系到系统能否正常运行。从这个意义上说,运行维护中的”看护“工作是最为紧迫、最为重要的。

(3)运行维护中的”保养“

对于信息系统而言,最佳运行状态经常会因为较长时间的运行而被削弱甚至破坏,如:磁盘阵列中某块孤立磁盘工作不正常,虽未造成磁盘阵列的整体故障,但影响了磁盘阵列的工作效率,需要厂家工程师及时更换磁盘;再如服务器上的某临时目录空间接近警戒水位,而系统没有具备对该目录的清理功能,需要人工予以清理;等等。对这些被削弱甚至破坏的状态的恢复,便是信息系统运行维护中”保养“的主要内容。

(4)运行维护中的”补充“

所谓”补充“,就是对系统的”能力强度缺陷“予以弥补,是对系统现有能力的增强。

3.运维工作及其运维系统

运维工作要求对发生的故障做到”及时发现“、”准确定位“、”正确判断“和”及时处理“,籍以实现其终极目标:保障业务系统的正常运行。然而达到上述要求所必须付出的努力的大小,即:是通过艰苦卓绝的努力最终达到要求,还是通过正常方式十分自然简单地达到要求,却能够真实反映出运维工作水平的高低。也就是说,保障过程中所付出的代价或耗费的成本-- ”运维成本“,是评价运维工作质量高低的最重要的尺度。运维成本不仅包括经费及支持环境,而且包括人力资源、运维时效等内容。

事业的发展使得具有信息系统鲜明特征的气象业务系统越来越复杂,与之相伴随的是故障的产生环节、故障的产生原因以及故障的种类等越来越多,相应地处理故障的策略、方式和手段也越来越多。很难想象,对于一个较大规模的业务系统,如果不能及时获取其各关键环节的状态信息,并对这些信息进行正确判断,如何能满足”及时发现“、”准确定位“、”正确判断“和”及时处理“的运维要求。亦即,对于较大规模的业务系统而言,其运维工作需要一个至少具备及时获取状态信息并具备对状态信息简单判断能力的工作平台--业务运维系统。

理想的业务运维系统应当至少具有三个特点:集约化、自动化和智能化。其中集约化可大范围节省人力资源,降低运维成本;自动化可以大幅度减轻劳动强度,提高运维时效;而智能化则能够为系统内部结构、流程的不断优化提供客观的分析数据和改进建议。而现有的IT技术,无论从信息采集、到信息传输、再到信息处理存储、直至信息分析应用等,都已有十分成熟的技术;只要需求明确,运维系统所需要的各种功能以现有的IT技术手段是基本可以实现的。因此当代意义上的业务运维系统,应当是一个IT系统。

应当注意的是:仅满足于对系统基础技术平台的运维管理是不够的,应用系统是业务系统的灵魂,只有在完成对业务系统基础技术平台运维管理的同时,实现对应用系统的全方位的运维管理,业务运维系统才算完整。

4.业务流程以及运维的困境

(1)业务流程及其特点

业务流程可以理解为业务活动的过程。业务流程包含6大要素:输入资源、活动、活动的相互作用(即结构)、输出结果、顾客、价值。

在已进入信息时代的今天,各行业中相当多数的业务流程的载体是信息,气象行业更是如此。业务流程和信息流程同属于流程的范畴,所不同者,业务流程关注的是系统内部工作的流向、工作流所经历的各个环节、各环节的作用、环节内部的活动效率和价值以及环节之间的关系,关注的是活动和结果,是通过工作流对系统整体的审视和把握;而信息流程关注的重点则是信息在业务系统中的流动状态、方向以及所经各环节的作用(或功能)等,关注的是信息的流转,是对某类具体信息在系统中的流转过程的把握。信息流程包含在业务流程之中。

业务流程有如下特点:

目标性:有明确的输出目标或任务。这个目标可以是一次满意的预报服务,也可以是一次及时的观测资料收集传输。

内在性:流程包含于任何事物或行为中。

整体性:业务流程至少由两个活动组成。

动态性:流程不是一个静态的概念,而是按照一定的时序关系由一个活动到下一个活动循序进行的。

层次性:组成业务流程的活动本身也可以是一个业务流程。即,流程是一个嵌套的概念,流程中的若干活动也可以看做是”子流程“。

结构性:流程的结构可以有多种表现形式,如串联、并联、反馈等。

(2)目前业务流程运行维护工作所面临的困境

天气预报是气象行业的主业,做为业务流程,它包含信息采集、信息加工处理以及产品服务等通常意义下的流程节点,而对每个节点进行层次性分析后可以看到,每个流程节点又都由若干个”子流程“组成,如:信息采集便由观测系统流程、国内通信系统流程和国际通信系统流程等组成,而信息加工处理则包含数值预报、会商、产品制作等流程。目前这些 ”子流程“通常以专业化的”子业务系统“形式存在,并各自分别以业务系统的方式予以专业化维护。但是,基于”大流程“--天气预报业务流程整体--的运行维护工作,并没有建立起来。

不仅如此,不少部门对于跨专业的业务流程的运行维护工作,也没能真正建立起来;比如:国家气象信息中心的实时数据服务业务流程包含通信系统、数据库系统和服务系统等流程组成,然而通信系统与后两个业务系统的维护工作各自独立,并且各系统对运行正常的标准亦存在差异:通信系统以到报率和及时率做为正常与否的主要判据,而数据库及服务系统则除到报率和及时率外,还需以到数据完整性及数据质量做为正常与否的判据;这种判据方面的差异时常导致对系统工作状态判断的分歧,而职责分工及职能范围局限所形成的天然壁垒,又使得这种分歧难以迅速消解,从而使得信息中心在实时数据服务方面的工作质量始终难以有质的提升。

如果孤立地考察每个业务系统,其所设置的状态判据大体上都是合理而完备的;但将这些判据放到其所属的整个业务流程的需求范围来判断,这些判据却又往往存在缺陷。因此,做为业务流程中某个环节的子业务系统,不应局限于满足本系统的专业化需求,而应当以业务流程的整体需求的满足程度做为本系统的状态判据。

遗憾的是,由于整体业务规划的缺失,使得各业务系统在设计之初便缺少其所属业务流程方面的明确需求,从而导致其只能就事论事,以满足本系统已确定的业务需求为系统的设计目标。也导致了目前基于业务系统的运行维护格局,虽可大致保证各业务系统在各自专业范围内的正常运行,却无法真正保证整体业务流程的运转正常。事实也确是如此。

5.大运维:基于业务流程整体的运维管理

(1)现有运维模式和格局存在的缺陷

”业务系统“的专业化运行维护是目前气象行业的主流运行维护模式;一个单位内部有多少个业务系统,便配备有大体上数量相等的几乎一一对应的运维团队;这种专业化的职责派定对于业务系统的专业化运维是十分必要的。但一个完整的业务流程往往是由多个子业务系统构成的,如果这个业务流程的运行维护工作完全委托由组成它的各个子业务系统的运维工作来承担,而这些子业务系统的运维系统彼此之间又缺少共同的语言、一致的标准和统一的步调,那么这样的运维对于业务流程来说,整体效率不高和难以达到理想效果等问题将长期存在。当重大事件来临,任务要求业务流程必须达到较高效率和接近理想效果时,便不得不以行政手段动用一切可能动员的力量,不惜一切代价,全力以赴地保障流程整体的顺畅流转。

也就是说,目前以”业务系统的专业化运行维护“为主流的运维模式,必须付出高昂的运维代价,方可达到其所属业务流程整体的理想效率和效果。

(2)大运维的管理模式是发展的需求

社会的进步和气象事业的发展,对天气预报和气候预测等服务的要求越来越高;而这些预报服务工作所涉及的范围,几乎囊括了气象行业的大部分业务系统;这些业务系统中的任何一个系统出现问题,都将影响到最终的预报服务水平和效果。如果仍继续沿用目前的运维模式和格局,以各有关业务系统的运行维护构成预报服务业务的整体运行维护,既无居中协调的管理者,各业务运维系统间又彼此缺少共同的语言、一致的标准和统一的步调,那么整个业务流程将难以达到正常的流转水平,预报服务工作将很难在现有水平上有较大程度的提高。所以,打破部门间的壁垒、弥合系统间的缝隙,消除那些层出不穷的非技术性难题,流程化管理是必由之路,这是业界的共识。

因此,基于整体业务流程的,具有统一的语言和统一的标准,既有专业化运行维护的明确分工,又有职权集中明确的流程管理者的运行维护模式:大运维模式,将是未来运维工作发展的方向。

(3)建立大运维的前提条件

构建大运维模式,其前提条件是业务规划的完成、标准规范的制定以及信息资源的规划设计和实施。

业务规划是分析本项业务的发展前景,描绘本业务的发展战略、发展目标、具体计划措施及必备条件的纲领性文件;只有站在业务规划的高度,才能够总揽全局,系统地提出大运维模式的运维需求;也只有在业务规划中提出需求,这样的需求才具有权威性。

业务流程运行维护的基础之一是各业务系统协同运维,而标准规范是各业务运维系统协同工作的基础。同样,各业务运维系统间协同工作的载体是各类信息,完成信息资源规划设计,规划好各类信息的含义、获取方式、流向和流程、频度以及存取和存储策略等,并予以具体落实,将使得原本各自独立的业务运维系统彼此关联起来,形成一个有机的整体;从而为大运维的构建打下信息基础。

在完成上述工作的前提下,按照流程管理的基本要求,确立流程的管理责任人,由该责任人统一协调各业务系统,逐一落实标准规范及信息资源规划要求。在此基础上,以集中、串接、优化和整合等方式,对已有业务系统的运维系统进行逐步整理,最终搭建基于业务流程整体的大运维系统平台,从而实现大运维的构建。限于篇幅,此问题难以在此展开讨论。

6.结语

业务产品是由业务流程产生的;业务流程是整体业务活动的载体,它流转的顺畅与否以及质量的高低直接影响到业务目标的实现。而组成业务流程的各个业务系统的正常运行并不意味着整体业务流程的正常运行;因此在目前现有运维模式和格局的状况下,加强业务规划、制定标准规范并完成信息资源规划设计等项工作,进而逐步展开构建基于业务流程整体的大运维架构,既是业务发展的要求,也是运维工作努力的基本方向。

作者单位系:国家气象信息中心

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

解决方案 智能化 信息处理 过程控制 数据库 容错能力
0