智能运维:实现云化核心网运维效率倍增
智能运维在电信系统中扮演着至关重要的角色,它通过提升运维效率和降低成本,实现核心网的稳定运行。面对复杂多变的现网环境,智能运维旨在解决实际问题,通过智能技术为运维工作带来实质性的提升。
电信系统的运维挑战主要体现在升级隐患的发现和静默故障的快速定位上。升级后的隐患可能在初期难以察觉,而静默故障的发生往往突然且难以快速定位,造成损失。为解决这些问题,智能运维系统需具备动态监控和异常检测能力。通过分析系统指标的周期性动态阈值和与同一时间点的动态阈值比较,系统能有效识别异常,快速发现升级后的隐患以及静默故障的存在。
构建智能运维系统的关键在于数据处理平台与机器学习算法的支持。系统需要具备全指标监控、动态阈值学习获取、指标偏差计算、以及指标与系统故障关联分析的能力。通过复盘现场事故,验证系统与实际结果的一致性,华为搭建了验证系统,包括全量数据处理框架和单指标异常检测机器学习算法。前者支持实时流数据处理,对大量KPI和metric指标进行采集和预处理;后者则通过历史数据训练出对应模型,对单个指标进行异常检测。
在实际应用中,智能运维系统展示了显著的成效。通过优化数据采集框架,支持不同采集方式以适应多样性的业务系统,实现高效的数据处理。采用的单指标异常检测算法能够对历史指标进行学习,构建动态阈值模型,并应用于现网数据检测,有效识别异常指标。经过连续两个月的现网数据验证,系统成功识别了四个异常指标点,得到运营商的满意评价,并计划将该功能特性商业化应用。
智能运维演进的下一步将涵盖更广泛的检测场景,探索多指标关联分析、根因定位算法以及告警压缩智能算法等智能手段,进一步优化故障检测、异常定位、根因分析过程,并结合自愈手段,推动网络自动化和智能化发展。KPI作为关键指标,其异常检测成为智能运维的重要组成部分,有助于实现对操作变更、重大事件保障以及日常监控场景的有效管理,减少故障影响范围,缩短恢复时间,从“事后运维”转向“全程监控、事先预判、自动恢复”,为提升核心网的可靠性和MTTR(平均故障恢复时间)提供关键支持。
多重随机标签