
Hadoop
面向MapReduce的大数据处理平台/系统的框架,包括HDFS、MapReduce、Yarn、Commons等,应用的 Mapper和 Reducer 两个模块的位置留待用户自己提供,这两个模块必须是按规定interface实现的Java类。
新鼬
永远年轻,永远热泪盈眶!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
linux,hadoop FAQs
1.VMware克隆clone机器。 2.tail -n 行数 -f -F 文件名,参数-f和-F都是监控文件(可克隆机器看),区别是当监控的文件删除后再建同名文件,只有-F能再次监控此文件。 3.ln -s [源文件] [目标文件] 创建软链接 ,ln [源文件] [目标文件] 创建硬链接 4.rz(sz 下载文件名),安装wget,它在linux下命令行界面上支持上传和下载的第三方工具,在linux里可代替ftp上传和下载。 5.SecureCRT快捷键al原创 2020-09-22 13:28:58 · 184 阅读 · 0 评论 -
大数据Interview Summary
1.数据倾斜:原因:1.数据特点 2.key设计不合理 本质:数据任务分配不均匀[分区] hive spark都有, shuffle 解决:1.打散key(根本上解决) 2.提高电脑性能(加内存、加CPU、加核)。 ReduceTask数大于等于2必然有shuffle过程,shuffle 会使1.性能低 2.数据倾斜 应尽可能避免使用shuffle过程。 ...原创 2020-09-25 16:45:19 · 143 阅读 · 0 评论