什么是大数据?大数据就是指在一定时间范围内无法使用传统数据库工具对其进行捕捉、管理、计算、分析和处理的数据集合,大数据有以下四个特性:海量的数据规模(volumn),数据类型繁多(variety),数据流转速度极快(velocity)以及价值密度较低(value),我们就说说这四大特性。
海量的数据规模
我们接触最多最敏感的数据那就是我们手机所购买的流量,最常见的数据计量单位为k、m和g,他们的关系为1g=1024m,1m=1024kb。也许你也听过tb,1tb=1024g,这个数据单位对我们来世已经相当庞大了,我们的笔记本最大的容量也就在1tb这个级别,但是在大数据眼里最小的数据也得10tb起,比tb级还大的数据计量单位还有吗?有,而且还很多,1pb=1024tb,1eb=1024pb,1zb=1024eb,1yb=1024zb......我们已经无法感知这么大的数据量了。截止到2011 年,互联网用户数已达到20 亿; rfid 标签在2005 年的保有量仅有13亿个,但是到2010 年这个数字超过了300 亿;2006 年资本市场的数据比2003 年增长了17.5倍;日前新浪微博上每天上传的微博数超过1 亿条;facebook 每天处理10tb 的数据;世界气象中心积累了220tb 的web 数据,9pb 其他类型数据……
极快的数据流转
数据具有一定的时效性,是不停的变化的,可以随时间数据量逐渐增大,也可在空间上不断移动变化的数据。如果我们采集到的数据不经过流转,最终会过期作废。客户的体验在分秒级别,海量的数据,带来的第一个问题就是大大延长了各类报表生成时间,我们能否在极端的时间内提取最有价值的信心呢?数据在1秒内得不到流转处理,就会给客户带来较差的使用体验,若我们的数据处理软件达不到“秒”处理,所带来的商业价值就会大打折扣。
价值密度低
尽管大数据的数据量巨大,但是有价值的信息极少,我们要通过分析才能将大数据从数据到价值的转变,这些工作量极其庞大,所以云计算是一个很好的解决途径。以监控视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
数据种类繁多
数据的格式是多样化的,如文字、图片、视频、音频、地理位置信息等,也可以是不同的数据类别,也可以有不容的来源,如传感器、互联网。首先用户是一个复杂的个体,单一的行为数据是不足以描述用户的各种行为,多元化的信息采集处理就像拼图一样,逐渐勾勒出我们身体的骨架,增添上我们的血肉。我们在淘宝、京东购物时,总会在下面的推荐区推荐我们想要的东西,比如我们去频繁的搜索浏览某件商品,这是他们就会采集我们浏览的数据,从中挖去有价值的信息,推送给我们。所以说这样的模式给一种体验,那就是这些app越来越懂我们的爱好和需求。
大数据未来会渗透在很多领域,大数据与云计算,机器学习与人工智能,物联网,区块链等。