(资料图片仅供参考)
随着业务系统云化、微服务化改造以及大规模向磐基PaaS平台迁移,运维人员需要精准布控的监控点数量也呈指数级增长,监控静态阈值的配置方式工作量庞大,且容易出现误告警现象,也不能随着业务变化自适应。同时,运维人员仅从指标波动趋势及告警情况上看,难以评估系统整体运行情况,还需要从基础设施、中间件、业务应用等多维度对指标进行综合分析,进而评定系统的整体健康度。
对此,江苏移动依托智慧中台构建了系统健康度评分能力,通过采集磐基PaaS平台的资源对象信息和指标、日志、告警数据,引入AI算法训练并构建异常检测模型,以树模型的可视化展示资源对象的健康度评分,捕获细节问题信息,显著提高了系统的巡检和诊断效率,帮助运维人员快速发现系统的故障和隐患。
能力介绍
系统健康度评分能力基于自动发现的手段快速识别系统资源对象的关系,并提供资源对象模型的权重配置,引入无监督异常检测算法、日志分析算法对资源对象的日志、告警、指标数据进行异常检测,具备可按照系统架构的分层结果呈现(主机、数据库、中间件、应用业务、模型)展示系统的健康度评分总览视图、问题列表清单和告警等功能。
能力优势
范围适用性广:提供数据采集、清洗、标注分析的整体流程适用于不同级别对象评估相关场景,如资源类、数据类、业务类等场景。
架构普适性高:提供封装的系统健康度评估的模型训练、调优、推理、发布等服务,形成适用于各个系统的统一评价标准。
算法易用性强:所使用的异常检测算法适用多种时序指标,日志分析算法适用多类日志,可适配不同业务系统。
应用成效
目前,系统健康度评分能力已在江苏移动及其他22个省公司落地应用。江苏移动在磐基PaaS平台应用该能力,对应用集群近3000个Pod实例状态的实时监测分析。该能力的应用,一方面优化了PaaS平台中原有的静态阈值监测机制,多维感知Pod运维流量异动,提高异常的快速识别和分析能力;另一方面借助AI模型提高系统巡检和分析的效率,业务系统每5分钟的运行情况评估工作由原来的4小时左右缩减至30秒,运维效率提升480倍,极大释放了人力成本。系统健康度评分能力利用大数据、AI算法等信息技术,深入运维场景,助力IT运维由传统模式向智能模式转型。
推荐阅读
关于我们 广告服务 手机版 投诉文章:435 226 40@qq.com
Copyright (C) 1999-2022 baidu.baiduer.com.cn baidu爱好者 版权所有 联系网站:435 226 40@qq.com