导航菜单

对于集中部署业务系统统一监控技术的研究

沈丽菁1,李海蛟2,曹思捷1,任宏2

(1.国网上海市电力公司信息通信公司,上海200436;2.南京南瑞集团公司,江苏南京210003)

摘要:随着集中式数据中心的建设,国家电网公司越来越多的业务系统会向数据中心集中部署模式迁移,这些业务系统存在诸多差异,如业务方向不同、技术路线不一等,而数据中心运维工作对于各业务系统统一监控的要求日益强烈。为了解决这一问题,在此旨在通过研究SNMP协议的标准及实现方法,建立完善的监控模式、统一的监控指标集与科学的告警机制,最终实现基于SNMP的业务指标监控系统,对于提高集中部署业务系统的使用水平和运维人员的效率,降低管理成本具有重要的意义。

教育期刊网 http://www.jyqkw.com
关键词 :集中部署业务系统;SNMP;关联监控;告警

中图分类号:TN911-34 文献标识码:A 文章编号:1004-373X(2015)12-0150-04

收稿日期:2014-12-15

0 引言

在国家电网公司初步建成集中式数据中心的背景下,针对公司各已建和在建应用系统逐步向集中部署模式迁移的现状,亟需对新环境下集中部署业务系统统一监控技术进行研究。现有的监控方式存在监控架构异构、监控模式不完善、监控指标与评价体系不一致等问题,难以适应集中部署业务系统对监控的需求。集中部署的业务系统用户规模大,各类业务应用的特点明显,实现的技术路线区别较大,这些特有的复杂度、差异度、专业度将为统一监控的实现带来极大的挑战。统一监控的关键在于建立完善的监控模式、统一的业务系统指标集与自下而上的告警机制,保障公司信息化建设平稳、有序、规范的向集中部署模式转变,确保业务系统安全稳定运行。

1 研究思路

1.1 监控模式

对集中部署业务系统的统一监控以监控系统业务运行为主线,并对支撑其的中间件、数据库、网络、虚拟资源、主机、机房环境等资源进行监控。主要以图形拓扑方式进行信息展示,并提供实时查询与统一告警。

业务运行监控包括对集中部署业务系统业务指标的实时收集和业务流程的检测。业务流程的检测分为主动探测和被动抓包两种方式。即对集中部署业务系统进行虚拟用户的主动模拟业务探测;对业务系统的通道通过镜像等方式被动收集数据包进行分析,来判断业务流的正常。

资源监控是监控与集中部署业务系统相关联的中间件、数据库、服务器、网络设备等资源。对这些IT 基础资源进行独立的监控,当某一层出现问题时,其上一次层肯定是要受到关联,原因的判断主要根据告警发生的先后顺序,来判断故障源头。如当数据库链接超过阈值时,其会占用大量内存,使内存占用率超过安全阈值。进而使业务系统响应速度变慢,直至瘫痪。

通过对业务运行监控与资源监控的深入分析与挖掘,梳理出能够全面反映集中部署业务系统运行状况的监控指标,建立统一的指标集与对应的评价体系,从而实现对集中部署业务系统的统一监控。

1.2 技术路线

本文通过对集中部署业务系统进行基于SNMP 标准协议监控的研究,为集中部署业务系统统一监控技术路线打下基础。

简单网络管理协议(Simple Network ManagementProtocol,SNMP),由一系列协议组和规范组成,包含一个应用层协议(Application Layer Protocol)、数据库模型(Database Schema)和一组资源对象。该协议能够支持网络管理系统,用以监测连接到网络上的软硬件平台。

基于SNMP 实现的网络管理系统一般由以下几个部分组成:管理基站(SNMP Manager),管理代理(SNMPAgent),管理信息库(Management Information Base,MIB)和管理协议。管理基站作为管理端,是运维人员进行网络管理的用户接口,它具有向被管对象发送操作指令以及接收被管对象反馈信息的作用;管理代理(Management Agent)有两种方式,一种是网络设备,如主机,网桥,路由器和集线器等;一种是软件服务,如Net-SNMP等。这些设备或服务上的管理代理(Manage-ment Agent)都能够接收来自管理端发送的指令信息,并且这些代理的状态也能够被管理基站监视。管理代理(Management Agent)响应管理端的指令并进行相应的操作,也可以在没有请求的情况下向管理端发送信息;MIB 是所有被管理对象的数据库,代表网络中所有可以管理的资源,如设备、服务等。每个MIB对象对应一个数据变量,每个数据变量则代表被管对象的某一个方面的信息,如主机内存占用率、CPU使用率等;管理协议,即SNMP。它的基本功能是:取得(Get),设置(Set)和代理者主动向管理站通报重要事件(Trap)。

本文所述的对于集中部署业务系统SNMP 的监控系统中,监控系统本身(包含其所在设备)具有向管理代理收发指令信息的功能,相当于管理基站。围绕各集中部署业务系统,有许多被管对象需要被监控,包括数据库、中间件等软件,还有主机、路由器、交换机等硬件,每个被管对象的信息以层次的方式组合,最终分解成数据变量固化于管理信息库中,管理信息库为每个对象定义对象标识符(OID)作为惟一标识。每个被管对象上都运行着管理代理(SNMP Agent),作为与管理端通信的媒介。本文设计的管理代理实际上是一种SNMP服务,它不直接部署在业务系统,即被管对象上,也不是业务系统的一个组件。这个服务只负责维护业务系统所有指标数据的OID、获取方式,这种获取方式可能是一个数据库查询SQL或者一个可以调用的API接口等,以及处理来自客户端的SNMP请求。

2 指标模型

集中部署业务系统统一监控的基础和关键是集中部署业务系统的监控指标集。要实现对不同业务系统的统一监控,首要任务是建立相对统一的指标集,并在指标集的基础上建立科学的评价体系,最终通过评价体系掌握各集中部署业务系统的真实情况,实现统一监控。

指标集的建立首先根据集中部署业务系统的实际情况,参照国网前期的运维经验与现实需要,开发出能够准确、充分地反映集中部署业务系统情况的指标,再参考国内外成熟系统的先进案例完善提升,形成业务系统运行指标与应用指标两大类型指标的指标集。

业务系统运行指标主要反映系统本身的运行状况及关联资源如服务器、数据库、中间件等的状态,(视运维工作需要扩展)如表1所示。

业务系统应用指标主要反映集中部署业务系统业务水平情况,由于不同的业务系统有着各自特有的核心业务逻辑和业务流程,所以应用指标也不相同,以国家电网公司集中部署业务系统电子商务平台为例,其应用指标(视运维工作需要扩展)如表2所示。

之后本文针对指标集建立了一套评价体系,为运行指标模块和应用指标模块分别赋予权重(可配置),根据业务系统的实际情况,指标集中的每个指标参照评价标准会得到相应的分数(满分10分),最后汇总出一个总分,这个总分即为反映该集中部署业务系统总体情况的重要依据之一。

3 MIB 设计

要实现基于SNMP对集中部署业务系统的监控,首先需要完成MIB的定义,将集中部署业务系统需要监控的对象信息以变量的形式固化到管理信息库中,才能被管理代理识别并被管理端访问。

根据管理信息库的对象命名树结构,企业的管理信息库对象为:

对象标识符(OID):.iso.ide_org.dod.internet.private.enterprises MIB节点:.1.3.6.1.4.1

将国家国家电网公司的私有管理信息库(Manage-ment Information Base,MIB)的根节点定义在企业管理信息库对象下:

对象标识符(OID):.iso.ide_org.dod.internet.private.enterpris-es.sg

MIB 节点:.1.3.6.1.4.1.****(基于安全性的考虑,本文采用*代替实际节点值)

在此根节点下扩展所有集中部署业务系统的监控信息,形成国家电网公司集中部署业务系统监控的树形结构。

首先根据国家电网公司的业务分类定义业务节点,再在此业务节点下定义监控节点,形成对于业务监控的根节点:

业务节点

对象标识符(OID):.iso.ide_org.dod.internet.private.enterpris-es.sg.bus

MIB节点:.1.3.6.1.4.1.****.1

监控节点

对象标识符(OID):.iso.ide_org.dod.internet.private.enterpris-es.sg.bus.kpi

MIB节点:.1.3.6.1.4.1.****.1.1

对于集中部署业务系统的监控,按照其所属的业务分类,在业务监控根节点下分层定义,以国家电网公司物资管理业务为例:

对象标识符(OID):.iso.ide_org.dod.internet.private.enterpris-es.sg.bus.kpi.mat.elc

MIB节点:.1.3.6.1.4.1.****.1.1.1.1

其中:节点.mat代表物资管理业务;节点.elc代表物资管理业务下的电子商务平台(系统)。

电子商务平台的运行指标与应用指标就定义在系统节点的叶节点上,以电子商务平台的运行指标“健康运行时长”为例,其节点定义如下:

对象标识符(OID):.iso.ide_org.dod.internet.private.enterpris-es.sg.bus.kpi.mat.elc.run

MIB节点:.1.3.6.1.4.1.****.1.1.1.1.1

至此,就完成了集中部署业务系统监控指标在管理信息库中的定义,而且该管理信息库易维护,方便其他业务系统及监控指标的扩展。

4 SNMP Agent 设计

集中部署业务系统监控的管理代理(SNMP Agent)作为管理端与被管对象的媒介,依靠SNMP实现信息通信,架构图如图2所示。

该代理的功能模块(可扩展)设计如表3所示。

5 告警设计

科学、完备的告警机制可以为运维人员日常工作提供规范、有效的告警信息,辅助运维人员进行故障判断,缩短故障解决时间,减轻运维压力与被动性,为信息运维提供有力技术支撑。告警设计的关键在于建立告警模型,本文通过对集中部署业务系统及其相关联IT 资源的梳理,根据IT资源的层级架构(见图1的监控层级图)建立集中部署业务系统层级告警模型,自下而上分为动力环境告警层、硬件/网络(包括虚拟环境)告警层、软件/服务告警层、业务系统告警层,以拓扑形式建立层级关系,故障发生时,系统按时间顺序发出告警。引入智能判断机制,根据告警级别、告警层级对故障进行智能判断,并生成关联分析报告,供运维人员分析参考。

一般的告警机制属于“事后告警”,告警发出时,故障已经发生,失去防患于未然的意义。对于集中部署业务系统的告警设计,除常规的告警设计外,更加侧重于对于故障的预防,加入预警的设计。预警设计的关键在于指标阈值的估算,阈值越精确,预警的价值也越大。本文基于国家电网公司多年的历史性能数据,根据平均值计算出资源性能指标数据的趋势曲线,当趋势指标数据超出阈值时,即存在发生告警的可能。提供灵活配置告警类别、严重级别、告警阈值的告警规则,系统依据用户配置的告警规则提供包括短信、邮件、语音等多种方式的告警服务功能,通过告警管理降低管理被动性,逐步实现无人值守的运维管理。

6 结语

本文从国家电网公司集中部署业务系统的监控需求出发,开展对集中部署业务系统统一监控技术的研究。首先根据业务系统的实际情况,梳理出能够全面反映业务系统运行状况的监控指标,建立统一的指标集与评分体系;然后采用基于SNMP协议的管理代理方式完成MIB与SNMP Agent设计,实现业务指标的固化;之后通过告警模型的设计支撑业务系统的运维管理;最终克服传统监控方式存在的不足,实现了对集中部署业务系统的统一监控。目前,本文所述的统一监控技术已应用于国家电网公司集中式数据中心,对于已迁移的集中部署业务系统已实现指标集的固化,评价模型也已用于日常考核,对于集中部署业务系统的统一监控已初见成效。随着更多的业务系统完成迁移,对于集中部署业务系统统一监控的研究成果将对提高运维人员的效率,提升集中部署业务系统的实用化水平与应用水平,降低管理成本发挥越来越重要的作用。

作者简介:沈丽菁(1970—),女,高级工程师。主要研究方向为数据中心。

教育期刊网 http://www.jyqkw.com
参考文献

[1] 葛君伟.云计算环境下的资源监测模型研究[J].计算机工程,2011(11):31-33.

[2] 魏钢,赵杰.基于SNMP的集群服务器状态监视系统设计[J].网络安全技术与应用,2011(1):25-28.

[3] 张彤,吴世荣.基于SNMP计算机网络流量监控系统研究[J].计算机技术与发展,2011(1):88-91

[4] 张登银,陈玮,任勋益,等.基于SNMP的MIB库转化成C文件的实现[J].计算机技术与发展,2011(9):6-9.

[5] 朱平尧.基于SNMP 协议的CMTS/CM 综合网管系统的设计与实现[J].中国有线电视,2011(z1):6-15.

[6] 魏煜欣,李强.一种基于SNMP网络性能管理数据的采集方法[J].计算机工程与应用,2011(2):105-107.

下载文本