- 博客(12)
- 资源 (3)
- 收藏
- 关注
原创 大数据面试要点3
项目经验: Hadoop 四个插哨 hdfs参数调优: NameNode有一个工作线程池,用来处理datanode的心跳 yarn优化 (1)单个任务的最大物理内存8G (2)yarn上可使用的内存总量:8G HDFS空盘闲置率在70%之下 Flume优化: Flume的内存配置为4G(flume-env.sh) FileChannel优化: 配置多路径,增大Flume的吞吐量 checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中 保证checkpoint坏掉后
2020-10-20 16:29:28
234
原创 大数据面试要点2
Hive 内部表:删除表会删除原始数据 外部表:删除表不会删除原始数据 排序: sort by :分区内排序 order by:全局排序 Distrbute by :分区内结合sortby使用 Cluster by:当Distrbute by和sort by字段相同时使用,不能指定排序规则 窗口函数: rank() dense_rank row_number: over(): 自定义UDF和UDTF )用UDF函数解析公共字段;用UDTF函数解析事件字段。 自定义UDF:继承UDF,重写evaluate方法
2020-10-20 16:27:20
181
原创 大数据面试要点1
yarn调度器: 1.FIFO调度器:先进先出,并行度为1 2.容量调度器:先进先出:并行度为队列的个数 3.公平调度器:多队列;每个队列内部按照缺额大小分配资源启动任务,同一时间队列中有多个任务执行。 队列的并行度大于等于队列的个数。 Lzo压缩: hadoop默认不支持Lao压缩,需要添加Jar包并在cores-site.xml中添加相关压缩配置 Hadoop参数调优 1 在hdfs中配置夺目录 2.namenode有一个工作线程池用来处理并发的心跳和元数据操作 dfs.namenode.handler
2020-10-20 16:26:25
172
原创 Spark面试相关
Spark Spark的集中部署方式: local:运行在一台机器上 Standlone:构建一个master+Slaves的资源调度集群 Spark自身的一个调度系统 Yarn:Spark客户端直接连接Yarn。不需要额外构建Spark集群 有yarn-cluster和yarn-client两种模式 Mesos:较少 Spark任务使用Shell脚本提交 Spark提交作业参数: executor-cores:内核数“2-5个” executor-memory:默认1G driver-cores:默认为1
2020-10-20 16:23:44
150
原创 业务数仓总结
讲课,备课,开发 业务数据仓库的总结: 一 表实体 订单表: 用户表: 商品分类: 交易流水: 二.表分类 实体表 维度表 事务性事实表 周期性事实表 三.同步策略 全量 新增 新增和变化 create_time 和operate_time ===cannal 范式: 1范式:属性不可切割 2范式:不能存在部分函数依赖 3范式:不能存在传递依赖 四。建模方式 星型模型:外围只有一层维度 雪花:外围有多层维度 五.sqoop 导入导出问题 hive底层存储null 为\N 导出数据时:–input-n
2020-10-20 16:21:45
297
原创 即席查询之Druid
Druid : 列式分布式实时分析的数据存储系统, 处理PB级数据、毫秒级查询、数据实时处理, 比传统的OLAP系统有了明显的性能改进 阿里巴巴开源的项目 官网:http://druid.io 阿里还有一个druid数据库连接池的框架,解决的是不同的问题 特点: 1.)列式存储结构 查询速度很快 2.)可扩展的分布式系统,每秒几百万条数据 3.)大规模的并行处理 4.)实时或批量处理 5.)自愈、自平衡、易操作:集群扩展或缩小,只需要添加或者删除服务器 集群将会在后台自动重新平衡,无需任何停机时间 6.)
2020-10-20 16:20:11
362
原创 即席查询之Presto
Presto : 分布式sql查询引擎 GB–PB 处理秒级查询的场景 注意:不是一个标准 的数据库,不是mysql的替代品,也不能处理在线事务(OLTP) 属于OLAP分析引擎: 1)客户端提交查询,从Presto命令行CLI提交到Coordinator 2)Coordinator解析查询计划,把任务分发给Worker 3) Worker负责执行任务和处理数据 4)Catolog表示数据源。一个Catolog包含Schema和Connector 5)Connector相当于jdbc连接池 6)Schem
2020-10-20 16:18:52
514
原创 Hive性能调优
一、存储优化,选用ORC text:行存储,默认不压缩,序列化、反序列化开销大 sequence:行存储,二进制,压缩率底 RCfile:行分块,列式存储,解压效率差,读取稍慢 Parquet:列式存储,压缩比率高,但比ORC差,存取速度快 ORC:行分块,列式存储,压缩快,存取快,压缩率最高,RCfile升级版 二、表设计优化 1、创建分区表 2、创建桶表 3、拆分不同的表存储 三、sql参数优化 1、作业有多个可并行的job时,设置任务并行及并行个数: // 开启任务并行执行 set hive.exec
2020-10-20 16:16:44
290
原创 Shuffle机制
Shuffle机制 1)Map方法之后Reduce方法之前这段处理过程叫Shuffle 2)Map方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小100m,环形缓冲区达到80%时,进行溢写;溢写前对数据进行排序,排序按照对key的索引进行字典顺序排序,排序的手段快排;溢写产生大量溢写文件,需要对溢写文件进行归并排序;对溢写的文件也可以进行Combiner操作,前提是汇总操作,求平均值不行。最后将文件按照分区存储到磁盘,等待Reduce端拉取。 3)每个Red
2020-10-20 16:15:36
243
原创 Hadoop常用端口号和配置文件
Hadoop常用端口号 dfs.namenode.http-address:50070 dfs.datanode.http-address:50075 SecondaryNameNode辅助名称节点端口号:50090 dfs.datanode.address:50010 fs.defaultFS:8020 或者9000 yarn.resourcemanager.webapp.address:8088 历史服务器web访问端口:19888 4.2.2 Hadoop配置文件以及简单的Hadoop集
2020-10-19 11:22:07
637
原创 面试Linux常用命令
Linux常用命令 序号 命令 命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写(yum install iotop安装) 4 iotop -o 直接查看比较高的磁盘读写程序 5 netstat -tunlp | grep 端口号 查看端口占用情况 6 uptime 查看报告系统运行时长及平均负载 7 ps aux 查看进程 Shell常用工具 awk、sed、cut、sort ...
2020-10-19 11:20:10
229
ElasticSearch Java开发Demo.zip
2020-04-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人