hadoop的企业优化

来源：cnblogs　　作者：董秀才　　时间：2018/10/10 8:57:41　　对本文有异议

前言：

　　Mapreduce程序的效率的瓶颈在于两点：

计算机性能：
　　CPU、内存、磁盘健康、网络
I/O操作：
　　数据倾斜
　　map和reduce数量设置不合理
　　map的运行时间太长，导致reduc的等待过久
　　小文件过多
　　大量的补课分块的超大文件
　　spill（溢写）次数过多
　　merge（合并）次数过多

MapReduce优化方法

　　数据输入：

　　　　（1）合并小文件：在执行任务前将小文件进行合并

　　　　（2）采用CombineTextInputformat来作为输入，解决输入端大量小文件的场景。将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个 maptask。　　　　　

　　　　　　CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m

　　　　　　CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m

　　　　　　job.setInputFormatClass(CombineTextInputFormat.class)

　　Map阶段：

　　　　（1）减少溢写（spill）操作：通过调整 io.sort.mb 及 sort.spill.percent 参数值，增大触发spill 的内存上限，减少 spill 次数，从而减少磁盘 IO。

　　　　（2）减少合并（merge）操作：通过调整 io.sort.factor 参数，增大 merge 的文件数目，减少 merge 的次数，从而缩短 mr 处理时间。

　　　　（3）在不影响业务逻辑的前提下，先进行combine处理，减少I/O。

　　Reduce阶段：

　　　　（1）合理设置map和reduce的数量

　　　　（2）设置map、reduce共存：调整 slowstart.completedmaps 参数，使 map 运行到一定程度后，reduce 也开始运行，减少reduce 的等待时间。

　　　　（3）规避使用reduce

　　　　（4）合理使用reduce端的buffer

　　I/O传输：

　　　　（1）采用数据压缩的方法，减少网络IO时间

　　　　（2）使用sequenceFile二进制文件

　　数据倾斜问题：

　　　　（1）抽样和范围分区

　　　　（2）自定义分区

　　　　（3）Combine

　　　　（4）采用Map join，尽量避免reduce join

　　JVM重用：

　　　　对于大量的小文件job，开启JVM重用会减少45%运行时间。　

　　　　具体设置：mapreduce.job.jvm.numtasks 值在 10-20 之间。

友情链接：直通硅谷　点职佳　北美留学生论坛

HBASE的安装过程及运行HBASE程序的需要配置的内容

hadoop--Unable to load native-hadoop library for your platform解决方法

Hive sampling 语法之TABLESAMPLE用法理解

idea项目运行时报错提示Could not locate executable null\bin\winutils.exe in the Hadoop binaries

hadoop 无法访问50070端口问题解决

Hadoop运行时遇到java.io.FileNotFoundException错误的解决方法

KUDU数据导入尝试一：TextFile数据导入Hive,Hive数据导入KUDU

Hive安装

Hadoop 学习笔记生态

Hadoop推荐文章

基于Hive的大数据分析系统

HBase 在统一内容平台业务的优化实践

hive窗口分析函数使用详解系列一

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）

在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群

Haproxy搭建 Web 群集实现负载均衡

HBase Compaction 原理与线上调优实践

Hive执行计划之hive依赖及权限查询和常见使用场景

工良出品：包教会，Hadoop、Hive 搭建部署简易教程

Centos7系统编译Hadoop3.3.4

Hadoop热门文章

Hadoop推荐文章