
mapreduce
文章平均质量分 64
midNightParis
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mapreduce多文件输出和多outputformat输出
最近公司有个比较蛋疼的需求,原创 2014-05-12 23:40:52 · 559 阅读 · 0 评论 -
Hadoop中DBInputFormat和DBOutputFormat使用
一、背景 为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。二、技术细节1、DBInputFormat(Mys转载 2014-06-24 21:47:38 · 492 阅读 · 0 评论 -
浅谈DBInputFormat
通常情况下用sqoop把关系型数据库里面的内容导入到hdfs,但是sqoop在数据分布不均的情况下,效率非常低,如:可能你给sqoop任务分配了10个map,但是真正起导数据作用的就只有1个,非常影响效率,这时候就可以考虑自己写MR把数据导入到hdfs,这时就需要使用DBInputFormat。DBInputFormat 主要用于把关系型数据库(如oracle,mysql)里面的数据导入到hd原创 2014-06-26 14:51:37 · 755 阅读 · 0 评论 -
关于"failed to report status for 600 seconds. killing"的错误
在做CPU密集型的MR任务时,有时会出现failed to report status for 600 seconds. killing的错误,分析了一下,是因为task长时间在跑任务,没有向jobtracker发送心跳包。 有以下方法可以改善这个问题。1. 延长task超时时间这种方法通过修改配置项mapred.task.timeout来延长超时时间。 默认是600000ms,可原创 2014-06-17 13:51:14 · 874 阅读 · 0 评论 -
Hadoop 的 TotalOrderPartitioner
Partition所处的位置patition类结构1. Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。2. HashPartitioner是mapreduce的默认partitioner。计算方法是which reducer=(key.hashCode() & Integer.MAX_VALUE) %原创 2014-06-17 17:00:07 · 451 阅读 · 0 评论 -
Hadoop 中的数据倾斜
最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消转载 2014-06-18 23:24:55 · 628 阅读 · 0 评论 -
MapReduce 性能调优:减小数据倾斜的性能损失
6.4.4 减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。在map端和reduce端都有可能发生数据倾斜。在map端的转载 2014-06-18 22:53:56 · 862 阅读 · 0 评论 -
关于Hadoop中的采样器
关于Hadoop中的采样器1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009/12/20/hadoop-tutorial-series-issue-2-getting-started-with-customized-partitioning/ 简单的来说就是解决"How to automatical原创 2014-10-31 20:24:08 · 991 阅读 · 0 评论