了解最新公司动态及行业资讯
在数字○化浪潮下,运维能力逐渐成为现代企业的竞争力之一。
在过去的几十年里,运维经历了几个阶段。从早期的人工运维到标准化运维、自动化运维、AIOps,全过程追溯不难发现,随着技术的不断发展,运维方式正在逐渐智能化。
2016年,为运维提供了一个新概念——“AIOps”,中文意思是智能运维。即以AI等手段为核心,为运维提供更加智能化、数字化的支持。也就是说,运维应该从“人”元素中分离▆出来it运维技术,更多地▓放在“数据”端。包含更多场景,包括异常告警、告警收敛、故障分析、趋势预测、故障画像等。
所谓AIOps,简单理解,就是基于自动化运维,将AI和运维很好的结合起来。
AIOps 的实施直接击中了传统①运维多方面的痛点。 AI算法承担着分析海量运维数据的重任,能够自动准确地发现和定位问题,从决策层面提升运营效率,助力企№业运营运营。维护工作在成本、质量和效率方面的优化提供了重要支持。
在市场方面,全球IT研究机构预测:“到2022年,40%的大型企业将部署AIOps(智能运维)平台。”
可见,AIOps在企业中※的作用进一步放大。但实际上,很多企业并不清楚AIOps能解决什么问题。今天我们就从华晨数据的AIOps的三种场景和算法入︾手。
Brill Data 的 AIOps 实践
作为领先的APM应用性能管理厂商,在AIOps实践方面,华晨数据多年来积极拥抱人工智能、机器学习等新技术浪潮,并以AI和机器学习技术为基础,自主研发了“数据接口”。 “传入、处理、存储、分析技术”核心技术々体系,全面部署智能基线、异常检测、智能告警、关联分析、根因分析等丰富广泛的智能运维功能,集成AIOps能力融入端到端全栈监控产品线可为传统企业提供强大的数据处理、存储和分析软件工具,帮助客户整合各种IT运维监控数据,实现数⊙据统一存储和关联分析,打破数据孤「岛,构建统一的IT运维。运维管◤理平台让企业的IT运维更加智能化、自动化。
在此基础上,华晨数据还依托完善的IT运维监控能力,利用大数据和机器学习技术,不断打造先进的智能运维监控产品。 2021年,将推出新一代AI能力。 APM产品.0和新版统一智能运维平台继【续实现智能异常检测、根因分析、故障预测等场景。基于AI的能力在运维监控场景中实现信息整合、特征关联和业务洞察,帮助企业保障数字化业务的顺利运营和良好的↓数字化体验。
博瑞数据AIOps场景与算法
目前,华晨数据在AIOps技术上主要实现了三个场景。即智能基线预测、异常检测〖和告警收敛。
首先看看智能基线预测。
智能基线预测是『指基于历史数据,利用智能算法进行深度学习,准确预测未来每个时间点的值,并将预测值作为基线进行监控和告警。
如⌒ 上图所示,未来24小时的数据预测结果用虚线表示,灰色区域表示正常数据的波动范围。如果实际值超出灰色区域,则会出现异常。
当IT运维人员发现业务服务数据出现问题时,通常会使用动态基线来测试和测量实时数据。如果实时数据和动态基线数々据两条曲线拟合度相近,则服务相对健康;如果动态基线与实时数据的离散程度较大,则说明当前服务存◥在问题。
目前华晨数据在智能基线预测中使用的算法包括实时预测算法、离线算法预测和流式算法预测三种。
让我们再♂看看异常检测。
异常检测是指通过对历史数据的机器学习来动态预测数◥据的趋势。无需手动□设置阈值,可根据指标数据特征自动识别异常。
如图,灰色区域代表正常数据的波动范围,红色数据点为异常数据点。
在检测应用服务运行状态的过程中,IT运维人员可以通过AIOps异常检测算法判断图中红色区域的数据为异常数据〗,深灰色条形区域为业务波动的可】容忍范围。同时,运维人员还可以通过数据集的特征数据对当前事件周期内的数据进行聚合,综合分析当前事件对应用的整体影响和波动范围。
目前华晨数据在异常检测中应用的算法有静态基线(绝对静态↓基线+差分静态基线)、智能基线+判别等。
最后,我们来看看警报收敛。
所谓告警收敛,是指基于多个相关告警信息,组合成一个故障,可以预测判断当前处』于故障状态的告警可能产生的影响,从而实现预警故障并减少冗余报警事件。干扰运维工作。
目前华晨⌒ 数据在告警收敛中使用和规划的算法包括事件熵、顶点熵、时域相关、文本相似相关、拓扑相关、NMF+等。
为AIOps行业的发展做出贡献
进一步□ 扩展和丰富华晨数据现有的AIOps场景、算法和能力,打磨日∮志异常检测、根因分析、影响分析、自然语言处理、DIY算法等能力,用AI算法赋能日志业务场景管理、一体▂化运维、应急自愈快速恢复≡等,算法实验室助力企业加速数字化转型进程。
随着企业业务规模的扩大以及云原生和微服务的兴起,企业IT架构的复杂性呈指数级增长。但是,传统的IT运维方式在故障发生后很难找々到故障原因,且故障平均修复时间长,已经不能满足新的运维需求。因此,不可避免地要用人工智能赋能运维,替代缓慢易出错的人为决策,快速给出运维决策建议,减少问题影响,提前预警问题. AIOps作为当前运维发展的最高目标,未来将赋能运维,为用@户带来全新体验。
但需要注意的是,目前智能运维的很多产品和项目在企业端并不理想。原因可以归结为三点:一是数据采集与AI平台分离,多源数据之间缺乏关联,导致AI平台缺乏优质数据,从而导致模型训练结果不佳;二是数据采集主要基于和日志,导致应用场景狭窄和数据♀孤岛问题;第三it运维技术,AI平台能力仍存在提升空间。目前落地场景多以异常检测和智能告警为主。未来需要进一步提高根本原因分析和故障预测能力。
因此,未来企业首先要搭建一体化的监控运维平台,而一体化是智能化︻的基础。基于综合监控运维平台采集的优质可观测数据以及数据之间的关联性,将AIOps能力进一步落实到综合监控运维平台中,实现精准问╳题定位和洞察能力。
另外,在实际∮应用中,根据中国信息通信研究院ξ的相关调查,被调查企业中具备智能监控和运维决策能力的企业不到20%,超过70%的企业是应用系统故障的第10起。在几分钟♂内什么都不做。
各行业的数字化转型正在改变这一现状。不仅是互联网企业,更多传统企业的数字化转型,为智能运维开辟了更广阔的市场。智能运维有着巨大的发展空间。现在是等待行业领先公司努力的好时机。
提升创』新能力,推进智能运维,既是相关服务商自身发展的要求,也是提升中国企业应用管理和运维水@ 平的使命。
中国企业数字化转型的加速,无论是前端应用服务的迭代更新,还是后端IT运维架构复杂度的提升,都在加速智能运维的成长.