恶汉眼里的小桃花原标题:中国智能运维实践年度报告(2021-2022)》之实践案例分享Part2
Hi朋友,上期分享了中国建设银行的实践案例,下面让我们来看一看本期内容之“数据赋能,场景驱动——中国农业银行AIOps智能运维实践案例”。
农业银行于2019年底开始一体化生产运维平台建设,并将AIOps能力建设作为其“补足短板,聚力提升”,实现智能运维转型的关键一环。在整体建设过程中,坚持“数据赋能、场景驱动”的建设思路,深挖运维数据价值,积极开展创新实践,推动AIOps智能运维技术在农行的应用及推广。
在运维数据方面,通过建设运维数据集市推动6大类异构运维数据的集中入库与存储,实现海量运维数据的集中管理、统一建模与高效共享,为智能运维的落地夯实数据基础;
在分析工具方面,结合农行数据中台技术,建设适用于运维数据的BI可视化分析引擎及AI算法分析引擎,降低运维数据分析门槛,提高运维数据分析效率,推动主动运维理念践行,释放一二线运维人员运维分析潜能,形成百花齐放的运维数据应用生态;
在场景应用方面,结合生产运维过程中的痛点、难点问题,以解决实际问题为目标,探索建设了多维日志分析、批量智能预警、应急故障诊断、ChatOps运维一点通等智能运维场景建设,并在农行分布式核心系统、手机银行等重要系统中落地应用,切实推动了农行运维工作的提质增效。
业务规模日益增长及架构分布式转型对商业银行核心业务系统的运维保障工作带来了更高的要求,除了要关注系统整体交易量、响应时间、成功率等生死指标的波动情况外,还需要能够及时掌握省市、渠道、交易码、服务器等更细粒度的指标,才能实现业务异常的精准定位并采取对应措施。
而受限于维度交叉带来的数据量增长,并且多个维度的指标变化可能会互相影响,因此多维钻取分析往往充满挑战。
历史解决方案往往基于监控维度的配置,对于部分重点交易码、重点省市等维度进行分别监控,但这种方式难以穷举所有的维度组合,必须探索更加自动化、智能化的多维钻取分析方案,能够在系统异常时自动钻取到维度级的异常指标。
交易日志一般会包含渠道、省市、交易码等多维交易信息,从中可以更全面、更精细的感知系统异常对业务的影响。本案例通过实时消费核心业务系统的交易日志,构建异常检测与多维分析算法模型,实现了系统业务异常的智能发现与多维定位,其主要步骤包括:
实时对接交易日志数据,并对交易量、响应时间、成功率等关键指标以省市、交易码、服务器等关键维度进行流式聚合分析;
在检测到系统异常时,应用多维分析算法进行根因定位,通过裁剪维度分支、相同维度聚类等方式缩小根因搜索空间,精准定位异常维度组合,如某渠道交易异常,某省市+某交易码异常等;
基于计算和分析结果,通过大屏实时感知交易数据变化;提供用户交互视图,实时查询错误码对应的交易分布,辅助用户分辨业务异常和系统异常。
该场景目前已在农行分布式核心系统中落地应用,实现了数十亿核心交易日志的实时多维分析,能够支持异常交易的分钟级检测和定位,大幅提升了核心系统业务异常的预警分析能力与故障定位能力。从生产的实际应用来看,核心系统的故障发现率提升45%以上,异常交易维度定位准确率达到90%以上。
随着农行业务不断发展,信息系统的复杂度越来越高,相应的批量处理程序也日趋增多,且其关联关系日益复杂,批量作业的运行压力日益加大。面对生产上层出不穷的批量运行异常,迫切需要提升批量监控预警的能力,在实现批量报错预警的基础上,能够及时有效的发现批量启停异常、耗时异常、路径偏移等情况,以进一步提高对批量异常的敏感度,以及批量异常分析和处置的效率。
通过对批量历史运行数据进行建模和分析,训练批量运行态势模型,实时分析批量运行情况,发现态势偏移时及时产生预警,“化被动为主动,防风险于未然”,真正提升批量运行监控的智能化和精细化水平。
批量智能预警场景目前已覆盖了农行90%的批量应用,建立了数万支批量程序的运行态势模型,累计识别批量运行风险千余条,有效的压降了批量异常事件,保障了批量运行稳定。
在农行深入推进数字化转型的过程中,新技术、新框架的使用对安全生产提出了更高的要求。生产异常事件的准确发现、全面诊断、快速处置是系统安全稳定运行的重中之重。当前普遍通过告警作为故障发现和诊断的抓手,但是告警规则的覆盖范围是有限的,告警所包含的异常信息是有限的,因此需要综合的分析工具提升生产应急处置的效率。
监控数据质量的高低决定了故障分析能力的上限,因此在数据接入过程中,需要有统一的接入标准,数据质量的持续检测和数据质量提升的运营跟进。
在应用上云的大趋势下,全链路监控可以更好的获取系统间调用关系,提供故障排除的方向。
对于指标数据、链路数据、日志数据采用不同的机器学习算法,分级展示所有异常监测结果。
目前应急故障诊断功能已经纳入农行一体化生产运维平台,实现了“监控-诊断-处置”全流程,为生产异常的“及时发现、准确定位、快速处置”提供了有力支持,生产异常的定位时间压缩至5分钟以内。另一方面,也以故障诊断为抓手,持续推进着监控数据治理。
在运维领域,随着GitHub团队提出的ChatOps(聊天式运维)概念在国内逐渐盛行,运维自动化领域的运营、运维工作正逐步由人肉向技术转型。农行基于ChatOps理念和NLP人工智能技术建设了农行智能运维机器人“运维一点通”,“因数而智、化智为能”,促进运营自动化建设的智能、高效、低成本运营。
基于文本分词、相似度计算等NLP原理构建了初代智能问答机器人,并与行内生产运维知识库对接,支持单轮对话式基础问答能力。
为了进一步拓展能力辐射范围,基于词槽配置、对话状态机原理和Redis缓存机制等技术实现了智能问答领域的任务型多轮对话。
在智能运维机器人(“运维一点通”)入驻行内通讯工具“畅聊”后,基于畅聊定制化自研构建了基于检索的运维自动化领域意图识别能力。
智能运维机器人自上线以来,经过不断地技术革新和渠道拓展,已服务总分行用户逾2000人,问答轮次已超过15000轮,问答直接命中率为90%,用户问答满意度良好,较好的实现了赋能一线运维、二线开发和业务运营的目标。
未来,农行将依托一体化生产运维平台,持续推动AIOps运维能力建设,一方面尽快将AIOps能力向新技术栈进行推广,全面提高云平台、微服务等复杂分布式架构下的全链路监控、分析、定位、处置能力,另一方面利用AIOps增强风险挖掘能力,对容量进行精细化管理,从而提升业务系统整体服务水平。
|