3月31日,由互联网知名技术媒体“高效运维社区”主办的面向金融科技机构中高端it技术人才的“2018互联网金融专场沙龙”在京召开。自去年9月宜信开源aiops三大利器(uavstack、wormhole、dbus)之后,uavstack等开源软件受到广泛关注,不少企业已经试用,甚至部署到生产并建立了aiops的基础。本次大会上,宜信技术研发中心研发总监张真受邀出席,就相关企业特别关心的“如何设计aiops平台架构”问题进行深度剖析。这是宜信首次对外分享aiops平台架构层面的关键细节,旨在推动行业技术共同成长,为互联网金融企业以及相关行业的智能运维发展提供现实的指导。
活动现场,张真分别通过展示“纷繁交错”的服务流图谱(描述应用/服务之间的关联关系)以及分析经典监控运维的数据应用架构存在的问题,向与会者解读了aiops平台架构设计的六大技术难点:如何获取高质量、高时效的监控数据;如何应对ai“工程化”的复杂性;多维度数据的关联难度大;机器学习模型的训练困境;如何实现运维场景的实时感知;遗留技术栈,混合架构增大复杂性。
宜信技术研发中心研发总监张真
张真介绍道,宜信在进行aiops平台架构设计时,就是围绕上述难点进行开展的。宜信的智能运维三步曲是:全维监控,全维关联,全维智能。全维监控通过统一采集体系,完成指标(metrics)、调用链(tracing)、日志(logging)这三大类监控数据的采集,保证了时效、对齐和品控。任务机器人的建设是为了支持后两个阶段。全维关联通过采集从设备,应用环境,应用程序的现实描述以及它们的关联关系,结合微智能知识图谱技术,实现系统对现实的增强感知,这种数据也叫画像数据(profiling),进而利用画像数据实现对指标、调用链、日志等监控数据的实时关联。全维智能,一方面通过对接大数据平台实现对机器学习模型的训练,同时将知识图谱和机器学习模型转化成可插拔式的服务,以实现对任务机器人“决策能力”的持续交付。
此次会议的内容不但为从事智能运维领域研究的企业提供了架构设计的参考案例,加速技术衍生和创新;也帮助那些没有人工智能工程能力的企业免去了高昂的“试错”成本,使之可以结合宜信的开源软件uavstack等(开源参考:https://uavorg.github.io/main)和aiops平台参考架构来落地自己的智能运维体系。