重磅 | 混合查询和负载 我该怎么支撑大数据分析生态?!

大数据分析生态支撑
大数据分析已经渗透到生活的方方面面,分析能力的演进也在不断变化。
分析可以产生报表,企业领导者运用大数据分析的知识沉淀获悉企业经营状况;分析可以对企业运营状态二次加工,以提升业务价值或巩固运营不足;分析可以了解商圈人流密度,运用可视化生成地区热力度,用作监控预警和商圈选址;分析可以进一步挖掘并探索数据价值,利用一些列高级算法构建模型,并引入ai引擎智能化执行;分析可以实时地获悉你想要的东西,比如实时数据更新、实时查询、实时展现、实时监控;分析可以分析互联网用户的行为,比如鼠标点击、页面停留、用户偏好、用户位置等等;
上述诸如此类的分析价值,离不开数据支撑……
企业运用大数据探索业务价值,数据是一点点积累的。无论做数据整合或原系统改造,又或者新建系统甚至购买外部数据源,总之企业的数据源是在逐渐丰富的。那么,假定我们不愁数据源,实际上为了实现顶层的业务价值,必须依托于底层大数据分析的能力才能得以实现。而这个能力就是今天介绍的大数据平台如何支撑混合查询与分析负载。
丰富的查询引擎:今天面对大数据的业务形态,所谓的查询引擎可不再是单一sql引擎,因为出现了hadoop,所以就有了hive的类sql和hbase的nosql,因为又出现了spark,所以还有sparksql的运用,现在又有了人工智能,所以还有tensorflow的能力调用,所以今天的分析引擎是非常丰富的,而且在某些应用领域中可能会并行触发很多引擎先后紧密协作,这就对大数据平台的基础支撑能力提出了挑战。
高并发查询响应:大量用户同时访问系统很吃系统资源,这对it设备的硬件提出了挑战,尤其在今天云爆发的时代,客户很多分析业务并非全都本地化执行,不论aws还是阿里的云服务都可以为某些case提供基础能力。所以高并发其实是考验系统的i/o能力,但这个能力似乎这几年并没有太大改善(磁盘介质类型、转速、总线带宽),所以迫使之下只能软硬兼施(软性从软件架构上考虑,如mpp架构;硬性从设备性能上考虑,如infiniband),与这种能力相关的业务场景同样考验大数据平台的支撑能力。
复杂性查询任务:复杂性查询任务可以体现在某些特定的分析环境,一个复杂查询可能包括几十张大表的关联,涉及条件筛选、关联、聚合、统计等逻辑,所以会占用非常大的i/o。如果将一个复杂查询分解成多个简单子查询,并均衡地分配到各个结点上执行这些子任务,从而缩减查询处理的总体时间。但无论如何,这种作业的高效执行需要大数据平台的支持。
交互式实时查询:这个能力可以从facebook开源的presto说起。presto是一个开源的分布式sql查询引擎,支持sql92/sql99/sql2003等标准,支持非结构化数据。适用于大数据量的交互式分析查询,基于apache许可证分发,可支持对hadoop和其他数据源进行查询分析。这种查询访问更加体现处理时效和敏捷性。
库内高效分析:大数据平台的高级分析能力主要体现于:通过最大限度地减少数据移动量,从而实现高性能数据分析。相比于一般分析过程,高级分析主要取决于平台中分析能力的扩展。支持库内系统级的分布式并行迭代计算,较好的支持数据挖掘与高级分析,提升效率并降低分析成本。
datalab敏捷分析:数据沙盒的这种能力能够促进数据探索和实验,业务人员直接分析工具,便于集成、管理和使用,大大提升了工作效率。通过自带的软硬件封装,降低实现成本,维护使用简单。datalab敏捷分析能促进探索和实验,提高case效率和运行速度,降低个人数据市场的成本且维护安全。
可视化数据分析:数据可视化是利用图形、图像处理、计算机视觉以及用户界面的手段,通过表达、建模的方式对数据加以可视化解释的应用。主流的数据可视化工具主要有javascript库类及web应用类。交互式数据可视化在很大程度上取决于javascript库的能力,能利用相似的数据创建svg条形图。广泛用数据集的动态可视化展现;web应用类可以打开和浏览数据、创建仪表板,并通过拖放等方式轻松创建图标,广泛用于前端报表的可视化。大数据平台的商用与开源兼并,成熟的数据可视化工具提升业务人员分析体验。
跨平台查询访问:随着多种不同的大数据技术运用,在大数据系统内部,可能会有跨平台访问的场景,比如(开发人员在hadoop系统上执行rdbms的操作),这就需要提供查询与执行的连接器,实现跨平台数据查询。可通过下推的方式将数据处理工作推送至其他平台完成,从而减少数据复制及移动。大数据平台应提供跨越多个平台的数据查询及分析能力。
上述几种面向业务的查询和分析,尤其是跨越这八种类别的混合查询与分析负载,需要底层强大的能力支撑。而数据采集、etl平台、大数据存储和计算正是底层的“搬运工”,苦活儿累活儿统统包揽,把能产生业务价值的炫彩闪光点全都留给了分析域,从而更好的构建大数据分析生态。