hadoop是大数据的总称,在系统学习大数据以前,我们要学会对性能进行调优。前面已经介绍对硬件选择和操作系统的调优,接下来继续介绍hadoop参数及hive的调优。
调优之hadoop参数调优
传统mapreduce和yarn对比
如果服务器物理内存128g,则容器内存建议为100比较合理
配置总量时考虑系统调优块,双路四核2*4*2=16g,则总量设置为10到12比较合适,需要预留空间给其他服务器
需要给master分配足够资源,并且分配受限于yarn
调优之hive调优
表1表2的join和表3表4的join同时运行
此法需要关注是否有数据倾斜(大量数据集中在某一区间段)
总而言之,调优要根据平日工作或使用情况进行调整,套路并非固定,多尝试就能找到适合自己使用的性能。