
大数据
文章平均质量分 93
用于记录大数据相关知识的专栏
瓶中怪
一无所求 , 怎会一无所有
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce分布式离线计算框架
介绍: Google发布的三个产品:Google File System / MapReduc / BigTable的详细设计论文 , 奠定了风靡全球的大数据算法的基础. MapReduce分布式离线计算框架用于大规模数据(入门级是1TB)的并行计算. 将程序云星宇hadoop等分布式系统上 MapReduce的概念是Map(映射)和Reduce(归约) Map(映射)将数据切片,把一组数据映射...原创 2019-01-05 20:04:19 · 2343 阅读 · 0 评论 -
hadoop 2.x集群搭建
快捷跳转 集群搭建 站在hadoop2.x的角度批斗hadoop1.x HDFS NameNode压力过大,内存受限,系统扩展性差 NameNode单点故障,NameNode宕机系统就瘫痪了,在线场景中难以应用. MapReduce JobTracker访问压力大,影响系统扩展性 难以支持除MapReduce之外的计算框架,比如Spark、Storm等. hado...原创 2019-01-04 21:07:12 · 1742 阅读 · 0 评论 -
zookeeper分布式应用程序协调服务
ZooKeeper是一个分布式的应用程序协调服务 ZooKeeper是Hadoop和Hbase的重要组件,Hbase和ZooKeeper之间具有强依赖的关系. ZooKeeper为分布式应用提供一致性服务,它的功能包括:配置维护/域名服务/分布式同步/组服务和分布式锁的服务等. ZooKeeper角色图 各服务器和Leader发生数据交换,Leader保证集群的数据同步 Follower...原创 2019-01-04 23:29:29 · 1693 阅读 · 0 评论 -
HDFS分布式文件储存系统
最小单位 关系型数据库 block块 一般 行 1.0 64M 2.0 128M Hadoop 狭义:hadoop1=hdfs1+MR1 Hadoop2=hdfs2+MR2+Yarn 广义: Hadoop生态 Hadoop的思想之源: 旧时代的三驾马车 来自于Google 03年发布3大论文, GFS、mapreduce、 Bigtable ;Dougcutting用Java实现)...原创 2019-01-03 23:24:55 · 1632 阅读 · 0 评论 -
完全分布式:hadoop 1.x集群的搭建和使用
本文配置环境基于 CentOS系统 部署jdk 部署Tomcat服务器 至少3台虚拟机 网络设置 虚拟机ip地址别名设置,服务器之间相互ping通 时间同步 免密钥登陆 hadoop安装和配置 规划 启动虚拟机,并关闭三台虚拟机的防火墙 将hadoop安装包上传座位NameNode的服务器node01,并解压 环境变量配置,安装包解压的文件夹中的ect/hadoo...原创 2019-01-03 21:08:53 · 1517 阅读 · 0 评论