经过多年的信息化建设,企事业单位已经积累了大量的数据。但目前数据中心在构建时仍大多采用传统的技术手段,如集中式服务器构建,数据处理以单节点模式为主,缺少实际并行计算处理能力。这导致数据中心无法对海量非结构化数据进行有效存储、处理及分析,以及提供大数据环境下全访问、全类型的数据存储及处理服务和为企业数据资产深度分析挖掘提供数据支撑。
为解决以上问题,曙光开发了基于大数据技术的全业务统一数据中心数据分析平台,以充分发挥大数据技术在数据存储、并行计算、大规模数据分析挖掘、线性扩展、全类型数据支撑等方面的优势。
五大层次支撑总体架构
根据信息系统以及数据现状的调研分析,曙光设计了基于大数据技术的全业务数据中心数据分析平台的总体架构,包括数据接入、数据存储、数据计算、统一分析服务、系统管理五个层次。
总体架构图
数据接入层主要实现数据的采集接入和清洗转换两个功能。采集接入主要是将数据从各个业务系统数据源和外部环境数据导入到统一分析存储系统中;数据清洗是发现并纠正数据文件中可识别错误的一道程序,针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行清理,使脏数据变成干净数据,有利于后续的统计分析得出可靠结论。
数据存储层采用分布式文件系统存储方式,将数据存储总体上划分为缓冲区、统一视图、数据仓库、数据集市、实时采集、热点数据6个部分。
数据计算层提供分布式运行引擎和协同计算功能,及离线计算、实时计算等能力,可满足各类业务应用不同时效性数据计算需求。
统一分析服务层为业务人员提供数据挖掘工具和自助式分析服务,以满足易用、快速、灵活拖拽的业务报表和大数据挖掘应用,同时提供数据路由、数据网关等功能,实现对外提供统一的数据服务及展现服务。
该系统通过标准化分析数据接口及数据跨库查询服务等功能建设,实现基于数据跨库查询服务的多查询、多表或视图联接合并机制。如图所示,提供具备数据模型定义可配置、数据发布快速等特性的数据接口服务,从而促进业务应用系统与统一分析服务间的标准化集成,支撑全业务数据中心统一分析服务组件建设。
四大优势全方位保障平台运行
该系统采用hadoop生态体系与自主研发的mpp并行数据库解析技术,解决了传统数据中心扩展性差,建设成本高、数据存储、计算处理及分析挖掘能力有限等问题。
在数据集成方面,支持非实时数据、实时数据与非结构化数据的全量接入,并能对数据中心的所有的数据集成任务进行调度及作业监控。
在数据存储方面,基于混合架构存放不同性质的数据,并提供了不同的数据服务。在分析服务方面,提供了指标多维分析与固定报表展示功能,以及数据挖掘模型的管理、训练、评估及发布等,并通过批量数据服务、异步数据推送、数据实时服务等方式,为外围系统提供数据支撑。在系统管理方面,通过研发数据管理平台实现了元数据管理、系统监控、接口监控、运行调度、运维辅助等功能。
此外,该系统克服了传统技术扩展性不强、建设成本高、计算处理及分析挖掘能力有限的缺点,能满足企业大数据环境下对全类型数据存储、处理、分析及应用的需求,从而实现大数据环境下全业务、全层级、全类型数据资产的集中整合、存储、分析与应用,适用于大数据集成融合分析业务场景,可广泛应用于能源、环境、气象、政府等行业大数据统一分析应用。