对于刚刚接触大数据的人 大数据工程师怎样养成 让我来详细告诉你

大数据初学者怎样学习
大数据现在很火很热,但是怎么学习呢?下面我就给大家介绍一下:
大数据的方向有 大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。
大数据的4大特征:
1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。
2.数据的类型多种多样,有些是结构化的数据,像存在oracle,mysql这些传统的数据库里的数据,一般都是结构化,可以是还有非结构化,比如html,word,execl等格式。
3.它们的价值密度低,这样说吧,你比如说观看一条数据好像价值也不大,但是分析所有的数据之后呢?总会挖掘出一些 重要的东西。
4.处理这些数据的速度要快。比如像hadoop技术的mapreduce计算框架,相比传统的数据库处理速度要快,它的吞吐量 特别的大,再比如spark,spark在内存方面计算比hadoop快100倍,在磁盘方面计算快10倍。
大数据的技术:
hadoop生态圈:hadoop hdfs文件系统 mr计算模型、hive数据仓库、hbase数据库、flume日志收集、kafka消息系统
spark生态圈:spark core、spark sql、spark streaming、mllib和graphx
storm流式计算
分布式协调服务:zookeeper
nosql数据库:redis、mongodb
还有rabbitmq、impala、flink、kylin
机器学习:mahout
……
这么多技术这么学习呢?
先学hadoop
hadoop框架中由两大模块组成,一个hdfs(hadoop distributed file system),是用来存储需要处理的数据,另外一个是mapreduce,是hadoop的处理数据的计算模型。学习一门数据库,像mysql 学点sql
hive
只要你会sql,你就会使用它。hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,
可以将sql语句转换为mapreduce任务进行运行。
hbase
hbase即hadoop database,hadoop的数据库,hbase是一种 nosql 数据库,即不是rdbms ,不支持sql作为主要访问手段。
sqoop
sqoop是迁移数据工具,可以在很多数据库之间来迁移,
flume
flume是一个分布式的海量日志采集和传输框架,一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
kafka
使用kafka完成数据的一次收集,多次消费。它是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统。
spark基于内存计算的框架
spark core最为重要
sparksql
spark streaming
图计算
机器学习
storm实时的流计算框架
机器学习mahout
主要学习算法
建议
没有基础的人可以去培训一下,速成
如果你有很多时间,可以直接研究
如果你是牛人,需要你指导一下我。
喜欢就关注小编,小编天天写,你也可以进步一点点