大数据产品长什么样?

《大数据时代》书中写到大数据产品是以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的信息或深刻的见地。因为数据本身是没有价值的,只有数据分析师从数据中挖掘出有用的信息,大数据才被赋予了真正的“生命”,才能被称为一种产品。
一、大数据产品设计的两个基本原则:
1、精确:数据只有精确才能让人信服
2、易用:产品只有易用才能让人更方便去挖掘有用的信息,才能体现价值
二、大数据产品的用户
1、狭义:数据分析师和数据科学家
2、广义:产品经理、市场专员、营销经理、机器学习专家、管理层都具有大数据分析的需求
大公司有专门的大数据产品部门,小公司和个体商户(淘宝店主等)可以使用第三方的数据产品(比如友盟、数据魔方等)。
三、大数据产品长什么样?
不同职位、不同技能的用户需要不同交互形式的大数据产品。
管理层:提供可视化数据报表,帮助管理层利用其大脑和经验 做决策;
市场/营销专员、产品经理:提供小型数据库表/olap cube,将数据导入excel后完成数据分析工作;
初级数据分析师:设计更专业的数据仓库/数据库表,利用sql、r完成数据分析;
高级数据分析师、机器学习专家:开发大数据平台的数据接口api,利用平台的超计算力进行数据挖掘。
处在表格越下方的产品包含的数据量越大,使用难度越大,产品的用户也越专业。准确地说,提供大数据平台接口api才是真正的大数据产品,其他三种只能算是“小数据”或“类大数据”。但在实际工作当中,一般的数据产品都会包含以上这四个层次,以便于不同层次的各类用户使用。
不过,一个完整的大数据产品不仅仅只有产品的交付形式,背后往往具备一个架构在平台之上的大数据流水线。以可视化大数据报表为例,至少具备五个部分:
获取用户行为的原始数据
上传和处理用户大数据(将“大数据 ”分解为“小数据 ”)
存储大数据(不同层级的数据如何存储)
设计大数据的交互方式(针对不同的用户层次)
数据精确度管控(数据不精确就没有可信度,最核心环节)
任何层级的数据产品都需要具有一定技术难度的数据流水线支撑,流水线的维护、开发就是大数据团队的日常工作。