第一部分 项目背景及挑战
1.项目背景与意义
伴随着互联网与信息技术不断发展,系统数据量不断增大,数据分析越来越复杂。如何从海量数据中挖掘出有价值的数据信息,辅助科学决策、促进社会经济发展,成为政府行政服务能力一项新考验。近年来,商贸流通统计工作进展迅速,指标体系基本成型,统计工作机制初步建立,数据样本结构不断优化,统计成果应用加深。但目前商贸流通统计中还存在”数据质量参差不齐、行业分析深度不够、统计人员业务素质有待提高”等问题。另外,商贸流通数据分散在相关地市商务局的各个原有部门,无统一的储存方式和标准,存在”数据散、统计困难、数据展示不直观、数据利用率不高”等问题,需要将分散、异构、多源的数据进行归集处理。因此,结合商贸流通统计业务需求设计适用轻量级数据仓库,开展面向统计业务的数据映射换规则研究,利用计算机软件技术解决商贸流通数据处理分析难题,对于提高统计效率与加强行业数据分析深度,具有重要的工程价值。
2.应用场景与需求
东莞市商务局作为东莞首个大部制改革的典范,商务数据统计工作强度越来越高、需求变化越来越快。同时,东莞商务局现有商务数据比较分散、难于利用,而且统计工作大多基于传统人工方式,统计效率不高、统计实时性不强、统计深度不够、数据展现不直观,缺少对商务数据进行趋势预测,迫切需要基于大数据经济统计系统,以数据全方位、有深度、高效率的统计分析为目标,实现商务数据的统一处理、经济统计更高效。
3.it环境及数据资源
3.1基础it环境
商务局内部建有的系统分为内部应用系统和垂直应用系统,内部系统主要为局内自建的应用系统,供局内部工作人员进行独立业务统计查询使用;在内部系统it设施中,有16台服务器,主要以ibm、dell服务器为主,其中,有超过7台服务器,其配置较低(cpu小于8核,内存低于8g),各服务器操作系统以windows server2003、ubuntu系统为主,数据库系统分别是microsoft sql server以及 oracle;存储设备使用hp的光纤存储,容量为1t,存储io为1g,带宽偏低;垂直应用系统多为商务部及商务厅系统,经商务内网或vpn直连网络使用,供商务局各科室及镇街办单独填报数据及下载数据。
3.2数据分布与组成
东莞商务局现有数据,既有内部信息系统采集,也有垂直系统采集,同时还包括第三方政府机构数据,如海关(按年支付数据费用);数据统计要求按月度定期进行汇总统计,并形成统计报表。
目前东莞商务局月度报表的数据采集来源主要有以下3个:
(1)商务局职能科室的数据采集:采集方式是通过应用系统以表格方式导出xls数据,再经过手工汇总、处理后形成统计报表。
(2)东莞市级相关部门的数据采集:涉及工商局、统计局、地税局、外汇局、科技局,需要通过东莞市政务信息共享平台采集相关数据。
(3)业务系统的数据采集:中央、省级直属应用系统数据。这部分未提供数据接口,只能通过手工复制粘贴到xls文件的方式采集。
已有系统分为内部应用系统和垂直应用系统,内部系统主要为局内自建的应用系统,供局内部工作人员进行独立业务统计查询使用;垂直应用系统多为上级商务部门及商务厅垂直系统,供填报数据及下载数据。
4.问题与挑战
4.1异构多源数据采集清洗
传统的数据采集方法主要在同源、同构数据间,主要以数据库厂家提供的数据处理工具为主,选择源数据库与目标数据库执行”比对、匹配”等操作,并以中间表形式存储映射结果。在不同数据库平台之间数据互连操作,称为异构数据库集成,各个数据库厂家均提供异构互连的方法,但各厂商方法不一样。
oracle中异构集成技术称为透明网关(transparent gateway),在oracle8i版本后,通过使用odbc组件链接sql服务,通过sql服务对各类数据库进行sql操作。sql server的异构集成工具称为linked server,通过odbc实现与其它数据库的互联。hadoop的info sphere data explorer平台,实现了大数据、rdbms、streams、file system与web 2.0等异构数据采集框架。
通过调研,东莞商务数据分散在多个数据源与不同数据库系统中,数据结构与数据分布复杂,如何实现异构多源数据采集、清洗、建库以利于数据应用是面临的首要问题。
4.2商务数据分析与挖掘
传统商务数据分析挖掘主要以政府管理部门的经济数据为主,但随着互联网、电商平台的快速发展,跨境交易、线上交易系统的发展越来越快,商务数据统计需要涵盖各类互联网平台的数据。东莞作为外向型经济主导城市,外贸、外资市场非常活跃,商贸流通情况非常复杂。经济统计中贸易方式、区域经济发展、转型升级等经济统计口径多、数据结构多样。在商务数据分析与挖掘领域,各类计量工具与数学方法非常普遍。通过数据分析与挖掘,规避了传统商务经济研究中纯理论文字描述的弊端;针对经济发展趋势、预测等问题,通过计量分析提高了经济研究的准确性与科学性。
商务数据分析与挖掘也是区域商务统计、商务经济分析的重要组成部分,在经济学上有较多的基于统计的数据分析与挖掘模型及算法,但模型的应用较宏观,在地市经济体与细分产业行业领域如何选择有效的商务数据分析与挖掘模型,是项目面临的另一个重要挑战。
第二部分 技术解决方案
1.拟采用的技术方案
1.1异构数据采集清洗
多源异构数据有两种情况,一种是指不同数据库(多源)并且数据库结构不同(异构)。在这种情况下,数据映射方式与多源同构数据映射方式差别不大。但由于使用异构数据库互连操作,会出现执行效率不高、系统开销大等问题。另外一种多源异构情况指不同数据源(多源),且数据分为结构化和非结构化(异构),此种情况也可以称为”大数据映射”。由于此种情况下,数据结构不固定,数据质量和信息量复杂,数据映射方法除了要考虑常见的异构问题外,还需要考虑大数据的采集处理效率、映射准确率与数据转化利用率等更多问题。
1.2商务数据分析与挖掘
在经济统计领域有很多不可量化的模糊问题,如经济发展预测、外贸走势等。面向这些复杂的经济问题,需要高质量的统计数据,需要用到准确、高效的量化分析方法与算法模型,还需要结合区域经济的现状与理论。大数据时代的经济统计分析将使用计算机技术,改变经济统计分析的现状,在经济统计分析中将复杂的经济现象收集整理,运用统计方法与模型对数据进行定量分析与运算,将模糊的经济问题通过统计清晰的抽象描述,大幅提高经济统计效率和分析准确率。
随着计算机技术的快速发展,云计算、大数据技术让大规模数据采集、处理、分析变得成本更低、效率更高,近年来利用数据仓库对大量数据处理变得更可行。
商务数据分析与挖掘有两种思路:一种不关注高深的数据挖掘理论与算法,利用高性能计算机处理大量的数据并实现数据分析挖掘。这种方法在”描述性统计”中应用效果较好,但由于大量数据带来的数据质量不高、算法效率低及数据结构不一致等问题,导致在”推断统计”中预测结果不可控。另外一种是通俗化。即将数据分析与挖掘结合行业知识,利用计算机将大规模行业数据通过分析挖掘转化为信息。
1.3技术选型与设计
系统基于java j2ee技术架构,并通过 b/s模式支持web和移动访问;通过ssh集成框架实现mvc三层架构,由struts负责表示层和服务逻辑组装,spring负责管理服务层,通过配置来实现核心业务逻辑,hibernet负责平台模型和持久化层,并支持数据库表到数据实体的转换,最终实现表示层、业务层、数据持久层、实体层、服务层的解耦分离。平台在表示层采用ajax的异步处理技术,灵活支持web套接字对长服务的调用,同时服务层以restful web方式提供get/put等常用资源操作接口。
2.技术思路与技术路线
2.1技术思路
要解决东莞商务局现有的问题,达到未来的预期目标,应从整体、全局上把握当前重点解决任务,形成长远可持续的大数据平台发展思路,以”分步建设,重点先行,边建边用”为建设原则,以”上平台,统数据、成体系”为建设思路。以面向政府、行业协会、企业,打造提供”全方位、系统化、多层次”的商务数据服务为总体目标,以”一库、一平台、三体系、两标准”为重点建设内容,结合东莞市商务经济实际情况,勇于创新,突出重点,循序渐进,逐步实施。
第一,加强与有关部门、协会的沟通协作,以”政府牵头、部门配合、行业协作、企业主动”工作思路,建立政府、镇街、协会、企业多级信息采集机制。
第二,充分利用市信息资源共享平台,注重商务信息资源整合,努力建立规范、完整、系统、科学的信息搜集渠道,形成集中统一的商务信息共享资源池。
第三,充分运用大数据、分析挖掘等技术手段,创新政府服务职能,提高统计数据质量、商务经济运行监测预警、经济决策支持、企业引导服务水平,提升商务信息资源利用能力,不断放大对政府决策和企业发展的服务效能。
第四,分阶段,逐步实施,结合东莞市实际,以内部统计服务能力提升基础,以服务政府决策和企业服务为根本,逐步提升决策支持的精准性、科学性,丰富完善企业精细化、精品化服务手段,重点建设最急需、最实用、最便捷的商务经济运行指标,不断发挥商务信息资源分析价值。
2.2技术路线
项目重点规划建设商务信息资源库,商务大数据服务软件平台,贸易监测预警体系、决策支持服务体系、企业引导服务体系三大体系,及商务信息资源和运行服务两套标准规范。
如上图所示,技术路线重点考虑如下:
一方面,平台整体支撑能力,按照领域驱动设计理念,运用模块化、组件化、服务化的整体架构,充分考虑平台后续资源扩容性、用户规模增长、模型分析需求,保障可扩展性、高并发性、可用性、安全性。
二方面,信息梳理获取方式,通过设计多种采集策略,除传统数据录入、导入外,运用接口采集、数据库引擎调用、web服务等技术手段,实现包括不同来源、不同类型、不同结构的商务信息统一归集。
三方面,数据存储处理能力,综合运用传统数据库及nosql对数据进行分类存储处理,传统结构化数据采用关系型数据库存储;半结构化或文档型数据采用非关系型分布式数据库存储。根据数据一致性不同层次要求,提供分类存储保障,包括内存cache、同步更新、异步更新等机制结合。并充分运用大数据并行计算框架,提升数据高并发的处理响应能力。
四方面,数据综合分析与决策支持手段,除传统数据统计分析方式外,进一步构建商务主题分析数据仓库,并综合运用分析挖掘中的特征抽取、分类、聚类、决策、神经网络等大数据分析方法,建立各类商务运行指标和模型,充分发挥大数据在决策支持、形势研判、趋势预测等方面作用。
五方面,商务信息服务能力提供,建立面向政府、行业、企业及向社会开放的统一信息服务目录,授权对服务内容订阅;建立统一的信息审核发布制度,定期将商务运行分析结果向不同对象开放和推送。
3.技术方案架构和特点
3.1技术方案逻辑架构
商务大数据统计项目充分考虑了现有电子政务基础资源,利用云计算和大数据技术,按照”九层两翼”的逻辑方式进行设计。描述如下:
用户层:平台主要的服务对象包括政府领导、主管机构、涉外经济机构,以及行业、企业
展示层:各类用户获取服务和交互的统一入口,主要由门户和各类访问渠道组成,访问方式包括web和移动端。用户可以通过各种渠道进行所需服务的访问,实现任何时间、任何地点的多渠道访问。
应用层:根据局内业务职能和东莞市商务运行发展需要,通...