机器之心编辑部在 WAIC 2021 AI 开发者论坛上,百度研究院量子计算研究所所长段润尧发表主题演讲《量子人工智能:从理论到实践》。在演讲中,段润尧讲述了量子计算的理论基础,对量子人工智能的发展现
顺晟科技
2021-07-09 10:23:03
205
前言
的“145”计划中多次提及数字化相关概念,其背后反映了从数字经济、数字生活到数字的趋势。近年来,产业数字化加速,金融业数字化进一步领先,金融业的主要机构银行也在经历数字化过程,银行业务快速增长的背后离不开IT系统的支持和支持,因此对IT系统的依赖度越来越高。IT运营和维护是IT系统本身的运营管理。混合体系结构、互联网应用程序和现有应用程序的双模式开发、云计算、大数据、5G、移动互联等技术的应用,一方面为银行开发带来了巨大帮助,另一方面也给传统IT运营和维护带来了巨大挑战。智能运维应用正在逐渐成为银行IT运维的新方向。
一、银行传统运营和维护的问题
(一)质量
可以说,IT运营关系到系统运营的稳定和持续,是银行经营的基础,在数字化程度高的今天,IT运营的维持质量是银行经营的命脉之一。如果单纯地测量系统不中断的持续性是一个粗浅的目标,那么运营和维护工作的各个方面都需要改善质量,有多种测量指标,需要过程的质量管理才能控制结果。(大卫亚设,Northern Exposure(美国电视),成功)传统的运营和维护在测量系统中缺乏手段和工具。例如,运营和维护链接的风险评估是单方面的,一些手动审查没有系统化,在准确性和适用范围上都可能遗漏,因此会影响整体运营和维护质量。
(二)费用
银行的运营和维护包括IT基本资源的规划、购买和使用,这与运营和维护成本的高低直接相关。银行作为商业机构,将会受到控制成本的压力。传统的运营和维护根据数据中心的历史数据,资源申请有很大的限制。无法根据业务系统类型区分。系统是软系统还是可变系统,现有的评价是不可能的。因此,在资源申请、规划和使用上出现过度重复或不足,导致运营和维护成本增加。
(三)效率
IT运营和维护的效率可以从两个角度查看发展趋势。
首先,在云环境和混合异构环境中,IT运营层面的复杂性正在增加。银行的业务系统本来就比较复杂,前后业务系统包括开源、半开源、商业化产品混合使用等多种技术路径、多种产品,基本IT基础设施也不同。这导致IT运营维护在系统间环境中进行,运营和维护变得复杂,熟练的运营和维护管理员发现故障后,检查每个系统需要很多时间(例如,状态数据分析、软件包分析等)。这种运营效率在系统复杂、工作量大的环境中显得非常紧张。
从另一个角度来看,银行运维人员每天都被各种运维事件牵着鼻子走,处于“四处灭火”状态,但实际上非常被动。此外,随着人员不增加,需要有效运营,这就需要在运营和维护事故中改善3354,将运营和维护处分发展到进行中、事后事前处分的方向,通过更多的事前处分提高整体运营和维护的效率。这是可以事前预防的思维方式,做事要事前才能大大提高运营效率。
二、智能操作和维护带来的四个变化
智能运维的崛起将极大地帮助解决上述质量、效率和成本三个主要问题,智能运维将通过数据、AI算法和人类专家库经验的结合,通过深入的运维方案,为IT运维带来飞跃。从运输工作的一部分来看,可以带来以下四个明显的变化:
(一)实现智能监控
企业使用多种监控工具(包括APM、NPM、日志、基础架构监控等)监控每个技术堆栈。但是大量无效、无用的数据会增加对后端数据处理的压力,数据的泄漏会导致问题、故障的遗漏。此外,监测工具还需要大量的手动调试配置、对操作和维护人员的严重依赖经验、人力成本等。在智能操作层面,基于机器学习算法的智能数据采集器可以实现智能数据过滤、核心数据识别、采集密度和频率调整、采集服务器的性能平衡。这样可以提高数据收集的准确性,更大限度地减少人力干预,降低人力成本,提高运营和维护效率。
(b)发现智能问题
随着企业IT系统规模的扩大、运营和维护环境的复杂性,运营和维护人员越来越难在大规模数据中发现问题。智能操作维通过智能异常检测、错误关联分析、错误根本原因分析、智能异常预测等功能,帮助操作人员快速找到问题、跟踪错误原因并实现失败的预测警报。
对于智能异常检测,基于密度算法的异常检测(LOF)方法、基于Ensemble的快速异常检测方法、基于历史数据模型的异常检测等AI技术可以自动、实时、准确地在监控数据中查找异常。为后续障碍分析和处理提供了基础。
对故障的根本原因分析是,在可能导致故障的众多因素中,追溯到可能导致故障的核心,找到根本的解决方案。通过机器学习或深度学习,发现不同因素之间的强相关性,并利用它推断哪些因素是根本的,帮助用户快速诊断问题,加快故障的位置,提高恢复效率。(大卫亚设,机器)。
(三)智能警报
传统的警报管理通常使用固定阈值,需要维护人员手动设置。这不仅工作量大,还严重依赖运营工作人员的经验,如果阈值设置不当,可能会导致警告风暴或警报遗漏等结果。监视环境发生变化时,以前的固定阈值不符合警报管理要求。智能操作和维护采用动态基线预警方法,智能分析数据的动态标准(即过去的时间点、当前状态的数据范围),弥补过去用户设置固定阈值的缺陷,智能分析数据趋势,分析数据动态基线,对警报做出智能判断。
各种监测工具会产生大量的警报信息,这些信息可能会形成大量的重复警报或警报风暴,这可能会大大降低运营和维护人员的效率。(威廉莎士比亚,Northern Exposure(美国电视),运营名言)智能运输通过相似性、关联性判断,将这些重复警报合并在一起,为运输人员提供有效的警报信息,大大降低了运输工作的难度。
(四)智能处置
在传统的运维管理中,故障处理很大程度上依赖运维人员的经验,但人类的经验不能涵盖所有故障范围,运维人员的经验不足会导致运维效率低下或错误的决策。智能操作维护可以将API访问的实时监控结果或预测结果引入决策知识库(智能大脑)智能生成决策建议中,并根据实际结果和趋势手动处理或自动处理采用的处理战略。减少问题解决时间,大大提高问题解决效率,提高企业运营层面的标准化水平。
三、互联网银行的智能化运营和维护实践
互联网银行制定了智能运维目标,目标是在运维管理中提高整体运维服务质量,为行提供综合运维服务,整合现有运维数据资源,完成运维数据智能分析平台的原始数据准备。对接现有工具平台,提供对现有运营和维护数据的智能分析、事件根本原因定位、容量预测、动态标准监控、辅助决策更改等功能。建立运维数据智能分析平台,完成运维工具的智能转换,积累智能运维经验,提高智能运维比例。
(a)智能操作和维护准备
智能运输实践要充分准备运输数据的标准化和标准化。该银行将日志、交易、事件、CMDB、工作单流程等源数据整合到统一的归档管理、归档平台上,使运营和维护数据标准化和标准化。
战略知识库是提高智能运营和维护的基础,日常处置的知识积累尤为重要,需要从战略到智能转变为知识库和自动化系统,战略越多,后面的智能应用水平也越高。
另外,系统之间必须充分开放API接口,才能打开每个系统。该线为系统间接口开放做好了充分的准备,使智能操作和维护应用程序能够实现系统间的报废。
(二)开发智能分析平台,探索智能运维方案
银行启动了智能监控、智能分析项目。通过全面的监控和数据收集,整合系统监控、事务监控、业务监控的源数据,提供给智能分析平台,然后对输入数据执行算法输出。与CMDB、事件平台相结合,创建了异常检测、动态阈值、警报压缩、自我修复、容量预测等智能操作和维护场景应用程序。
以异常检测为例。为业务四大黄金指标设计的智能曲线异常检测系统。四大黄金指标是成交量(业务实时发生的成交量)、业务成功率(业务成功量/成交量)、系统成功率(系统成功量/成交量、业务成功量与系统成功量的差异是否明确捕捉到系统异常)、平均延迟
22
2023-02
28
2022-10
27
2022-03
08
2021-09
23
2021-07
09
2021-07