一、大数据安全分为三个层次
大数据安全技术体系分为大数据平台安全、数据安全和个人隐私保护三个层次,自下而上为依次承载的关系。大数据平台不仅要保障自身基础组件安全,还要为运行其上的数据和应用提供安全机制保障;除平台安全保障外,数据安全防护技术为业务应用中的数据流动过程提供安全防护手段;隐私安全保护是在数据安全基础之上对个人敏感信息的安全防护。
大数据平台安全是对大数据平台传输、存储、运算等资源和功能的安全保障,包括传输交换安全、存储安全、计算安全、平台管理安全以及基础设施安全。
数据安全防护是指平台为支撑数据流动安全所提供的安全功能,包括数据分类分级、元数据管理、质量管理、数据加密、数据隔离、防泄露、追踪溯源、数据销毁等内容。
隐私保护是建立在数据安全防护基础之上的保障个人隐私权的更深层次安全要求。然而,大数据时代的隐私保护不再是狭隘地保护个人隐私权,而是在个人信息收集、使用过程中保障数据主体的个人信息自决权利。实际上,个人信息保护已经成为一个涵盖产品设计、业务运营、安全防护等在内的体系化工程,不是一个单纯的技术问题。
二、大数据平台自身安全机制存在局限性
目前,hadoop已经成为应用最广泛的大数据计算软件平台,其技术发展与开源模式结合。hadoop的最初设计是为了管理大量的公共web数据,假设集群总是处于可信的环境中,由可信用户使用的相互协作的可信计算机组成。因此最初的hadoop没有设计安全机制,也没有安全模型和整体的安全规划。随着hadoop的广泛应用,越权提交作业、修改jobtracker状态、篡改数据等恶意行为不断出现。据cve漏洞列表显示,从2013年到2017年,hadoop暴露出来的漏洞数量共计18个,其中有5个是关于信息泄露的漏洞,并且漏洞数量逐年增长。
三、数据泄露事件数量持续增长,造成的危害日趋严重
大数据因其蕴藏的巨大价值和集中化的存储管理模式成为网络攻击的重点目标,针对大数据的勒索攻击和数据泄露问题日趋严重,重大数据安全事件频发。gemalto《2017数据泄露水平指数报告》显示,2017年上半年全球范围内数据泄露总量为19亿条,超过2016年全年总量(14亿),比2016年下半年增长了160%多。仅2017年,全球发生了多起影响重大的数据泄露事件,美国共和党下属数据分析公司、征信机构先后发生大规模用户数据泄露事件,影响人数均达到亿级规模。我国数据泄露事件也时有发生。2017年3月,京东试用期员工与网络黑客勾结,盗取涉及交通、物流、医疗等个人信息50亿条,在网络黑市贩卖。此外,数据泄露的潜在隐患同样不容乐观,据shodan统计,截至2017年2月3日,中国有15046个mangodb数据库暴露在公网,存在严重安全问题。
四、大数据安全技术有待进一步发展
国内外大数据平台安全、数据安全、隐私保护相关的技术已经取得了一定的进展;但在应对一些新的网络攻击形式、数据应用场景、隐私保护需求方面,大数据安全技术的现有能力和水平还存在一定差距。
1、平台安全方面
集中的安全配置管理和安全机制部署能够基本满足目前平台的安全需求,大数据平台的漏洞扫描与攻击监测技术相对薄弱。hadoop仍处在快速发展的阶段,认证机制依赖kerberos,其认证中心可能会成为系统瓶颈。平台防攻击技术方面,目前大数据平台仍然使用传统网络安全的防护手段,对大数据环境下扩大的防护边界和更加隐蔽的攻击方式无法做到全面覆盖,而且行业对大数据平台本身可能的攻击手段关注较少,预防手段不足,一旦有新的漏洞出现,波及范围将十分巨大。
2、数据安全方面
数据安全监控和防泄露技术相对成熟,数据的共享安全、非结构化数据库的安全防护以及数据泄露溯源技术亟待改进。密文计算技术、数据泄露追踪技术的发展仍无法满足实际的应用需求,难以解决数据处理过程的机密性保障问题和数据流动路径追踪溯源问题。具体而言,密文计算技术的研究仍处在理论阶段,运算效率远未达到实际应用的需求;数字水印技术无法满足大数据环境下大量、快速更新的应用需求;数据血缘追踪技术未获得足够的应用验证,其成熟度尚未达到产业化应用水平。
3、隐私保护方面
技术的发展明显无法满足当前迫切的隐私保护需求,大数据应用场景下的个人信息保护问题需要构建法律、技术、经济等多重手段相结合的保障体系。目前,应用广泛的数据脱敏技术受到多源数据汇聚的严重挑战而可能面临失效,匿名化算法等前沿技术目前鲜有实际应用案例,普遍存在运算效率过低、开销过大等问题,还需要在算法的优化方面进行持续改进,以满足大数据环境下的隐私保护需求。
以上数据及分析均来自于前瞻产业研究院《2018-2023年中国工业大数据产业发展前景与投资战略规划分析报告》。
更多深度行业分析尽在【前瞻经济学人app】,还可以与500+经济学家/资深行业研究员交流互动。