魏东红,王其才,商 超
(中国电子科技集团公司第五十四研究所,河北 石家庄 050000)
任何一项新技术的发展都离不开需求的推动,传统的运维过程中,对网络业务的开通需要运维人员手动进行设备的配置。由于设备本身的多样性以及设备配置参数、标准不统一,人工配置的方式耗时长、命令复杂且容易出错,而网络业务更换往往会导致网络存在不稳定的状况,使正常的网络业务运行出现问题,经常出现回退至先前版本的情况。当网络发生故障时,相关联的告警激增,由于缺乏有效的故障诊断工具和方法,运维人员往往需要通过经验判断故障的根源,然后进行逐项排查确认,过程烦琐且需要耗费大量的精力,导致工作效率低下,运维成本增加。因此,如何高效地进行网络业务配置和故障诊断是运维领域亟须解决的关键问题。
自动化运维将运维流程自动化、智能化,尽可能降低人工成本,在实现方式上可依托以下技术手段。
2.1 软件定义网络(SDN)/网络功能虚拟化(NFV)技术
SDN将对设备的控制和设备本身相分离,采用集中式的控制器管理整个网络,其通过流表对网络的控制,实现对流量、转发的细粒度控制,使网络的调整更加灵活和高效。SDN对网络的全局视图和优化也有着重要作用。另外,基于SDN可实现网络业务路径的自动切换,当发生故障时,保障网络业务运行不受影响[1]。
NFV是未来网络的发展方向,以软件的形态定义物理的实体,在底层计算、存储、网络设备的基础上提供定制的虚拟网络功能,通过网络功能虚拟化管理和编排(MANO)对虚拟化功能进行编排,对外提供统一的接口与SDN有着天然的互补特性。SDN和MANO相结合可以通过软件的形式控制虚拟化网络功能(VNF)之间的流量转发,高效地进行流量调度[2]。
2.2 故障智能诊断
故障的准确性、实时性对故障的诊断有着十分重要的作用,在SDN技术中,通过网络编排的方式,控制器能够获取网络的综合视图,降低故障发现和诊断的难度。同时可通过故障关联分析,提取故障的特征,通过粗糙集理论获取特征集构成训练样本,并将训练结果应用于故障诊断,提高故障诊断的准确率[3]。
2.3 故障预测
在设备层面,通过对设备的监测,建立设备性能恶化与故障的决策模型,通过支持向量机、决策树、神经网络等模型进行故障决策。在网络层面,对故障诊断的关联数据和历史故障进行分析,挖掘故障关联衍生规则,建立故障预测模型。当判定故障条件满足时,对网络预先告警并提示网络优化改进。
3.1 系统设计
自动化运维系统以提高运维效率、减轻运维人员负担为目标,通过对网络业务流的控制以及故障智能诊断、故障预测等技术,降低故障发生概率以及故障处置时间,提高网络运行的可靠性。
在本系统设计中,将SDN与NFV相结合,共同向上层应用提供服务,NFV在标准硬件设备的基础上虚拟网络、转发设备。对SDN层提供编排底层基础,运维人员通过SDN控制器控制虚拟网络功能的生成和网络业务流的转发,并在此基础之上获取全网网络视图。网络监控通过各类成熟的监视手段,全面地监视机房环境、设备、流量和网络通联,方便运维人员掌握网络容量、资源利用情况及各类告警故障。系统运行过程中,运维人员可通过经验库增加知识积累,故障预测功能对可能发生的故障进行预警提示。发生故障时,故障诊断功能及时、快速定位故障根源,辅助决策功能能够按既定规则提示故障解决方案,供运维人员选择。系统数据交互如图1所示。
图1 自动化运维系统数据交互
3.2 数据采集
系统数据是运行的基础,网络数据的采集贯穿运维的全流程,目前此方面的技术相对比较成熟,能够通过设备支持的协议如SNMP、IPFIX、SFlow、软硬探针、设备日志、动环系统接口等进行数据采集。
3.3 网络监视
状态监控是运维的核心功能,也是一系列运维功能的基础,没有准确的状态显示,就无法判断当前的网络形势。网络监控的主要指标有:设备的运行状态、链路状态、网络设备的端口流量、设备的CPU、内存、磁盘空间占用率、设备的故障、链路带宽利用率等,对网络业务的监控十分重要。对于通过SDN配置的网络业务,可实时监视网络业务流,在具备动环系统的情况下采集并展示机房温湿度、机柜温度、烟雾等指标,辅以各类趋势变化曲线图,在实时监视的过程中评估网络的稳定性。
3.4 自动巡检
通过在系统中配置巡检周期,系统后台按时调度实现自动巡检。巡检前,运维人员配置巡检项、设计巡检单、告警阈值等信息,并与系统提供的监视内容相关联,系统进行巡检时将数据填入巡检单,判断是否到达告警阈值并对超阈值情况进行告警。根据用户制定的巡检数据分析规则处理数据并对巡检内容在一定周期内横向对比分析,呈现数据指标变化趋势,供运维人员查看和参考。
3.5 网络业务编排
网络业务随着时代的进步,为方便人们的生活,承载的网络业务也在不断调整,通过SDN/NFV技术将线下的操作转变为线上的配置,通过网络编排器配置网络业务参数、调整网络业务占用资源直接控制网络,按照其特性分配和扩容各类不同的网络业务资源,提高网络资源的使用效率。
NFV技术对底层硬件设备做适配处理,对上层SDN屏蔽了底层硬件的差异,提供统一的编排接口。SDN对虚拟的网络设备功能进行流表的编排控制,降低了SDN的难度,提升了编排的效率。对于通过SDN建立的网络业务路径流表,在网络视图中按需进行图形化展示。
在网络业务流表编排的过程中,可设置主方案和备用方案。当主方案由于网络变化或人为原因无法实施时,根据当前网络资源配置自动切换至合适的备用方案,这个过程保障了网络业务的持续性和稳定性。
3.6 故障诊断
3.6.1 工具协助诊断
在故障发生时,可借助外部的工具手段进行故障的初步诊断,如测试终端通过与测试设备互联,调用测试设备接口对网络和设备进行自动化测试。通过网络故障测试工具测试,利用测试结果进行网络和设备故障的初步判断和定位。
3.6.2 智能诊断
基于大数据平台的故障诊断,在网络运行时间足够长、数据量足够多的情况下,能够在大多数情况下准确推断故障的源头。在系统运行前期,通过历史故障数据建立故障模型,提取典型的特征向量,通过机器学习算法优化故障特征关联规则,增加判断的准确性。系统运行中期,通过诊断运维中的实际故障,对于不准确的情况,将诊断结果和处理作为输入,微调修正故障诊断模型,不断提高诊断的准确率。
3.7 事件处置
对通过系统操作直接能够解决的故障事件,系统自动记录运维人员处理故障的相关操作、配置参数,跟踪故障发生至消除的全周期,并将处理过程转化为经验存储,以便运维人员查询。
3.8 故障预测
在设备层面,通过采集设备自身内存、CPU负载、磁盘占用量、设备级日志,建立与设备故障的关联关系,当设备性能满足指标时,结合历史故障数据的经验规则预测故障的时间和类型。在网络层面,对复杂故障利用智能诊断功能的故障关联规则数据、当时的网络运行情况以及对历史故障关联数据的挖掘结果,建立故障的时序衍生规则。在运行过程中,通过机器学习算法优化调整,结合故障发生时对网络场景综合判断,进行故障的预测。
3.9 决策辅助
当网络需要调整或发生故障时,如何进行处置十分关键。网络调整需要评估网络调整的风险和影响,网络故障时需对故障的解决方案进行决策,如何处置决定着故障的处理难度和风险。
3.9.1 网络调整策略推荐
基于网络业务所需资源、当前所占资源、现有网络业务分布、网络业务冲突分析检测等数据进行综合评判分析,依照资源利用效率高低的排序推荐网络业务流表配置策略,同时提示调整策略的风险点。
3.9.2 故障处置策略推荐
基于以往的故障处置数据、当前运行网络的业务、设备当前性能等信息,推荐故障对应的处置方式,同时提示处置步骤。
对以上两种情况,运维人员可进行策略的对比,按照提示信息处理并选择最优策略,也可自行处置,将处置方式与故障关联。
目前,自动化运维技术处于蓬勃发展的阶段,还有诸多待解决的问题,本文将SDN/NFV技术应用于自动化运维系统,并提供了系统的初步设计。设计中网络监控是基础,是判断决策的前提,网络业务编排和故障诊断预测能够提高运维人员的保障效能,决策辅助能够辅助运维人员进行网络的优化调整。自动化运维技术能够有效提高运维工作的效率,有着重要的意义。
猜你喜欢 运维故障诊断故障 比亚迪秦EV充电系统故障诊断与排除汽车实用技术(2022年16期)2022-08-31基于神经网络的船舶电力系统故障诊断方法舰船科学技术(2022年11期)2022-07-15迈腾B81.8T起动机无法启动故障诊断分析汽车实用技术(2022年9期)2022-05-20GE LOGIQ P5 彩超故障维修2例中国典型病例大全(2022年13期)2022-05-10数控机床故障检测与维修内燃机与配件(2022年2期)2022-01-17大数据的中低压配网故障智能诊断科技研究·理论版(2021年22期)2021-04-18基于GPS的电力运维轨迹定位系统信息技术时代·上旬刊(2019年2期)2019-09-10IT运维管理系统的设计及应用科学导报·科学工程与电力(2019年33期)2019-09-10汽车出了故障语文世界(初中版)(2018年2期)2018-03-07电子政务甲方运维管理的全生命周期信息化建设(2009年2期)2009-06-02