【工行数据中心总经理刘方洲】工商银行数据中心智能运维的探索与实践

图片

党的十八大以来,以习近平同志为核心的党中央高度重视数字经济发展,国家“十四五”规划设立专篇对“加快数字化发展、建设数字中国”作出战略部署,掀起了新一轮数字化发展的时代浪潮,人民银行和银保监会也相继发文指导金融机构通过数字化转型助力数字经济发展、服务构建经济发展新格局。工商银行因时因势而变,坚持将金融科技高质量发展和创新应用作为全行核心竞争力和发展驱动力,聚焦数字生态、数字资产、数字技术、数字基建、数字基因,加快推动全行经营模式和治理模式的数字化变革,打造与现代经济体系相适应的“数字工行(D-ICBC)”。工商银行数据中心作为承担全行信息系统生产运维管理核心职责、支撑新一代技术应用和数字化转型的关键基础设施,主动作为、求新求变,不断探索生产运维管理新范式,全力打造智能运维架构体系,为全行高质量发展和数字化转型塑造发展新优势。

一、主动创新求变,

生产运维面临新挑战

近年来,工商银行数据中心紧密围绕全行发展战略,以安全稳定为首要工作任务,持续开展生产运维转型,已经形成覆盖面较为广泛、服务边界清晰的运维体系。但是,随着数字化转型的深入推进,工商银行运维体量快速增长,各项新技术飞速发展应用,IT架构持续更新迭代,给数据中心生产运维管理带来了全新的挑战。

一是业务场景加快创新,研发交付效率亟待提升。数字化转型背景下,随着业务的快速创新以及研发交付模式的灵活改进,传统交付机制的不足逐步显现,信息系统的快速部署能力和持续服务能力亟待提升。

二是技术架构迭代更新,运维管理难度持续加大。以分布式技术和国产自主可控技术栈为代表的新技术、新架构快速迭代,但其在高可用、性能容量、监控、应急、账务一致性等方面的配套能力与监管机构和客户对银行信息系统安全运行的要求还存在一定差距,数据中心传统生产运维体系无法完全满足大规模系统性风险场景下的异常发现、根源定位和快速处置等需求。

三是运维规模迅猛增长,传统运维模式难以为继。随着全行业务量的持续增长和IT架构转型的加速推进,数据中心运维规模在未来几年内仍将大幅增长,传统的专业条线“烟囱式”运维管理模式已无法有效支撑呈几何级增长的日常运维工作量,更无法满足其质量要求。

为了更好地夯实全行数字化转型的根基,提升生产稳定运行及运营管控能力,工商银行数据中心主动求新求变,积极探索生产运维管理的新范式,一方面坚持“安全生产第一”原则,重点聚焦“生产安全稳定”和“服务快速响应”两大目标,打通管理壁垒和专业边界,大力推动运维理念向“保安全、重体验、高效率、论效益”转变;另一方面遵循“运维服务场景化、平台化、智能化”的总体思路,积极推进运营新生态建设,应用新技术丰富生产运维手段,运用新思维优化生产运维流程,加快生产运维向数字化和智能化转型。

二、数据驱动运维,

打造智能运维新引擎

数据中心时时刻刻都在产生海量的IT运维数据,包括软硬件配置、运行监控指标、用户体验数据、业务运营指标、架构链路关系图谱及IT服务管理流程等,如何通过深挖IT运维数据价值,探索并实现以数据驱动运维场景自动化,以数据分析反哺运维服务质效提升,是数据中心生产运维实现数字化和智能化转型的关键。为此,工商银行数据中心借鉴了传统大数据领域数据治理的成熟方法,结合运维领域特点,深入开展“IT运维数据治理和智能应用”课题研究,形成运维数据服务体系整体规划(如图1所示),充分释放运维数据价值,为变更风险管控、故障发现和快速定位等运维场景提供更好的数据服务,并驱动相关运维流程提升自动化水平,推进生产运维智能化转型。

图片
图1 工商银行运维数据服务体系整体规划

一是持续开展运维数据资产治理优化。工商银行数据中心针对专业领域产生的运维数据开展存量治理,通过标签画像方式将运维对象在运维活动中产生的属性状态信息转换为规范化的数据资产,持续完善运维数据模型、元数据等数据质量规范,解决“数据质量不高,有数不能用”的问题,快速实现数据从“原料”到“产品”的价值转化。工商银行运维数据资产管理体系如图2所示。

图片
图2 工商银行运维数据资产管理体系

二是加速运维数据服务中台建设。工商银行数据中心通过灵活使用实时采集、准实时同步等技术手段,将运维数据接入运维数据湖进行统一纳管,解决“信息孤岛,有数不能用”的问题。截至目前,工商银行数据中心已基本实现运维数据“应入尽入”,覆盖主机、系统、安全、应用等专业领域的性能容量、监控指标、运行日志、安全日志等,每天入湖数据量超过100TB。同时,工商银行数据中心还建设了企业级IT运维数据总线,提供标准化规范化的数据API接口服务注册和管理机制,满足不同专业领域的运维数据在交换规模、交换频度上的多样性需求,提供面向运维场景的数据共享服务,解决“不知数据在哪儿,有数不会用”的问题。

三是全面推进数据智能分析模型建设。工商银行数据中心通过自研或联合创新,设计根因分析、关联分析、智能分析等算法引擎,实现对海量运维数据的流式计算和分析挖掘,联动历史知识库、专家规则库进行决策推导,提高复杂架构下的风险检测能力和问题排查效率。截至目前,工商银行数据中心已建立数百个数据分析处理模型,并广泛应用于聚合监控、性能容量分析、问题定位等场景。例如,在账务安全方面,通过交易与资金监测模型,形成客户动账类业务和支付清算类业务监控的趋势判断、突变预警和准实时级资金异常监控能力,快速发现可能发生的账务类差错。该模型已应用于个人/对公结算等数十个核心对客账务类应用,日均核对账务类交易超过4000万笔;在问题分析定位方面,构建了基于机器学习技术的数据分析引擎,综合监控指标及运维日志分析,形成运维对象的健康度评分指标,指标异常情况下可以联动故障辅助定位组件,经过排障图谱分析形成初步的问题根因定位,为一线运维人员提供参考,对提高生产问题发现效率有着较大的帮助。

四是构建可视化分析平台。在运维数据湖实现海量数据纳管的基础上,工商银行数据中心通过数据调用、数据监控、数据分析与数据展现等多种服务,基于热点业务品种、关键业务场景深度挖潜运维数据,提取业务交易特征行为,反哺至业务部门,以促进客户服务和业务运营优化。例如,基于各渠道系统的交易日志,开展客户行为特征、渠道成本分析等数据分析挖掘,协助业务部门开展业务运营成本分析,适时调整业务产品渠道和客户服务功能的战略布局,形成技术与业务、技术与管理相互支撑的良性循环。

三、运维流程再造,

构建智能运维新生态

长久以来,“谁使用谁开发”的运维研发和管理模式导致生产运维工具体系呈现出单一化、碎片化的特征。随着开放平台技术架构的多样化发展以及运维对象的几何级增长,工具管理成本高、沟通协作效率低等问题逐渐暴露出来。为构建生产运维智能化的新生态,工商银行数据中心借鉴银行业务架构建模理念,梳理归纳出生产运维主要场景,“抽丝剥茧”提炼运维活动流程并构建运维领域业务架构;对标业界先进做法,全面梳理已有的生产运维工具体系,去芜存菁,并按照运维场景进行合理整合,打通跨专业跨部门的运维流程断点,最终形成基于运维对象、面向运维场景的一站式生产运维服务平台建设规划(如图3所示),加速推动企业级运维向自动化和智能化方向演进。

图片
图3 工商银行一站式生产运维服务平台建设规划

一是实现专业运维服务的封装与集成。工商银行数据中心通过生产运维服务平台建设,将专业运维服务以API接口或脚本形式进行封装和集成,并通过该平台提供便捷的开发者服务和软件交付服务,帮助运维团队快速实现环境交付、生产应急等场景下的运维流程自动化,提升数据中心整体基础运维能力。以广泛使用的一键式应急切换系统为例,通过梳理业务系统链路环节,制定应急切换流程,按需调用网络域名解析、负载均衡、容器管理、数据库切换脚本等多个专业的原子能力,实现业务流量快速在同城园区或异地园区之间的漂移和接管。截至目前,该系统已经实现300多个高等级应用系统、数十条核心业务全链路、覆盖网络区域和IaaS云等关键基础设施故障场景的快速切换,大幅提高了生产应急效率。

二是实现生产运维管理全流程自动化。面向运维管理场景,工商银行数据中心将环境交付、版本发布和变更管理等核心流程统一纳管至一站式生产运维服务平台,在规范日常运维管理活动的同时,便捷地实现了跨机构跨部门的流程自动化调度,有效提升了运维的协作效率和工作质量。版本投产交付是变更复杂度最高、涉及范围最广的生产变更场景,为了及时响应业务快速迭代的需要,工商银行数据中心依托生产运维服务平台建设,践行DevOps理念,规划打通从应用版本交接、生产环境交付到应用版本投产的全流程。截至目前,版本投产交付全流程自动化改造取得显著成果,应用版本交付自动化覆盖率超过95%,投产交付实施成功率超过92%。

三是实现运维操作风险管控自动化。提升运维服务自动化能力,不代表可以降低运维风险控制要求。为了避免可能发生的生产运维操作风险,工商银行数据中心将原先生产变更的人工检查手段提炼形成专家规则库,并集成于生产运维服务平台的运维操作自动化流水线中,实现生产运维操作的事前检查和预警、事中检测和实时阻断,以及变更操作后的自动化验证,通过自动化的变更全流程风险管控手段,严格杜绝操作管理类风险事件的发生。截至目前,专家规则库已初步建立高危命令检测、明文密码检查、应用状态检查等专家规则,对已注册的数百条生产变更流水线进行风险监测。随着生产运维服务平台的持续建设,工商银行数据中心将持续丰富专家规则库,推动专业类标准变更、跨专业复杂变更流水线建设,进一步提升运维操作风险管控水平。

四、培育数字基因,

激发运维转型新动能

生产运维的智能化转型对运维人员的知识图谱和技能体系提出了更高要求,工商银行数据中心积极贯彻“人才兴业”工作思路,多措并举打造更有竞争力与创造力的运维团队。

一是健全人才培养机制。推进架构型、复合型科技人才培养,聚焦新技术新架构,加强跨专业学习培训、专业技术研究、同业调研交流和实际工作历练,加强专业技术团队对底层架构和产品运作机制的掌握,逐步培养形成一批工作表现优、开拓能力强、技能出色、勇于进取的专业核心团队。

二是推动员工技能转型。依靠金融科技重塑运维一二三线,引导专业运维人员由“技术操作型”向“运维研发型”转化,以进阶模式有序搭建分层分级的岗位职级课程体系,通过专业知识与通用知识的融合贯通,丰富拓宽专业技术人才知识图谱。

三是营造自主创新氛围。鼓励创新创效、创先争优,激发人才队伍活力。通过实施创新与技术攻关“揭榜挂帅”、开展多层次的创新增效活动等,将专业文化建设与大型科技任务攻坚、重难点问题解决等有机结合,为技术创新活动搭建支持平台,不断营造创新进取的企业文化氛围。

蓝图已绘,数字启航,智能运维探索永远在路上。工商银行数据中心将继续坚持“科技驱动、价值创造”,坚守安全底线,拥抱创新变革,探索建立更加完善的安全运营管理体系,推动生产运维自动化和智能化水平迈上新的台阶。

企业考察网文章,作者:标杆考察培训中心,如若转载,请注明出处:https://www.qykc.cn/7540.html

(0)
上一篇 2023年9月12日 下午12:11
下一篇 2023年9月14日

相关推荐