hadoop性能调优

操作系统调优

  • 增大同时打开文件描述符和网络连接上限
    操作系统的默认连接数上限为128 (sysctl -a | grep net.core.somaxconn),/etc/sysctl.conf  添加  net.core.somaxconn=32767

    linux默认打开文件描述符数量为183731 ,同样在sysctl.conf中添加fs.file-max=800000
    执行systcl -a 查看 systcl -p来刷新配置

  • 关闭swap分区
    在MR分布式环境中.用户完全可以通过控制每个作业处理的数据量和每个任务运行过程中用到的各个缓冲区大小,避免使用swap分区.

  • 设置合理的预读取缓冲区大小
    磁盘IO性能滞后于CPU和内存,设置预读可以较少磁盘寻道和应用程序IO等待时间,使用linux blockdev 设置读取缓冲区大小.

  • 文件系统配置
    开启linux的noatime属性.(/etc/fstab)

  • IO调度器选择
    参考 Hadoop Performance Tuning Guide

Hadoop参数调优

  • 磁盘块配置
    以前博文分析shuffle过程已经提过怎么配置 mapreduce.cluster.local.dir 将tmp文件写到其他本地硬盘,可以提升IO
  • 选择合适的压缩算法
    mapreduce.map.output.compress=true
    mapreduce.map.output.compress.codec=XXCodec

  • 修改ifile预读大小
    可以根据项目需求,适当修改预读缓冲区大小mapreduce.ifile.readahead.bytes

应用程序调优

  • 设置Combiner
  • 增加输入文件的副本数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值