自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (3)
  • 收藏
  • 关注

原创 大数据面试要点3

项目经验: Hadoop 四个插哨 hdfs参数调优: NameNode有一个工作线程池,用来处理datanode的心跳 yarn优化 (1)单个任务的最大物理内存8G (2)yarn上可使用的内存总量:8G HDFS空盘闲置率在70%之下 Flume优化: Flume的内存配置为4G(flume-env.sh) FileChannel优化: 配置多路径,增大Flume的吞吐量 checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中 保证checkpoint坏掉后

2020-10-20 16:29:28 234

原创 大数据面试要点2

Hive 内部表:删除表会删除原始数据 外部表:删除表不会删除原始数据 排序: sort by :分区内排序 order by:全局排序 Distrbute by :分区内结合sortby使用 Cluster by:当Distrbute by和sort by字段相同时使用,不能指定排序规则 窗口函数: rank() dense_rank row_number: over(): 自定义UDF和UDTF )用UDF函数解析公共字段;用UDTF函数解析事件字段。 自定义UDF:继承UDF,重写evaluate方法

2020-10-20 16:27:20 181

原创 大数据面试要点1

yarn调度器: 1.FIFO调度器:先进先出,并行度为1 2.容量调度器:先进先出:并行度为队列的个数 3.公平调度器:多队列;每个队列内部按照缺额大小分配资源启动任务,同一时间队列中有多个任务执行。 队列的并行度大于等于队列的个数。 Lzo压缩: hadoop默认不支持Lao压缩,需要添加Jar包并在cores-site.xml中添加相关压缩配置 Hadoop参数调优 1 在hdfs中配置夺目录 2.namenode有一个工作线程池用来处理并发的心跳和元数据操作 dfs.namenode.handler

2020-10-20 16:26:25 172

原创 Spark面试相关

Spark Spark的集中部署方式: local:运行在一台机器上 Standlone:构建一个master+Slaves的资源调度集群 Spark自身的一个调度系统 Yarn:Spark客户端直接连接Yarn。不需要额外构建Spark集群 有yarn-cluster和yarn-client两种模式 Mesos:较少 Spark任务使用Shell脚本提交 Spark提交作业参数: executor-cores:内核数“2-5个” executor-memory:默认1G driver-cores:默认为1

2020-10-20 16:23:44 150

原创 业务数仓总结

讲课,备课,开发 业务数据仓库的总结: 一 表实体 订单表: 用户表: 商品分类: 交易流水: 二.表分类 实体表 维度表 事务性事实表 周期性事实表 三.同步策略 全量 新增 新增和变化 create_time 和operate_time ===cannal 范式: 1范式:属性不可切割 2范式:不能存在部分函数依赖 3范式:不能存在传递依赖 四。建模方式 星型模型:外围只有一层维度 雪花:外围有多层维度 五.sqoop 导入导出问题 hive底层存储null 为\N 导出数据时:–input-n

2020-10-20 16:21:45 297

原创 即席查询之Druid

Druid : 列式分布式实时分析的数据存储系统, 处理PB级数据、毫秒级查询、数据实时处理, 比传统的OLAP系统有了明显的性能改进 阿里巴巴开源的项目 官网:http://druid.io 阿里还有一个druid数据库连接池的框架,解决的是不同的问题 特点: 1.)列式存储结构 查询速度很快 2.)可扩展的分布式系统,每秒几百万条数据 3.)大规模的并行处理 4.)实时或批量处理 5.)自愈、自平衡、易操作:集群扩展或缩小,只需要添加或者删除服务器 集群将会在后台自动重新平衡,无需任何停机时间 6.)

2020-10-20 16:20:11 362

原创 即席查询之Presto

Presto : 分布式sql查询引擎 GB–PB 处理秒级查询的场景 注意:不是一个标准 的数据库,不是mysql的替代品,也不能处理在线事务(OLTP) 属于OLAP分析引擎: 1)客户端提交查询,从Presto命令行CLI提交到Coordinator 2)Coordinator解析查询计划,把任务分发给Worker 3) Worker负责执行任务和处理数据 4)Catolog表示数据源。一个Catolog包含Schema和Connector 5)Connector相当于jdbc连接池 6)Schem

2020-10-20 16:18:52 514

原创 Hive性能调优

一、存储优化,选用ORC text:行存储,默认不压缩,序列化、反序列化开销大 sequence:行存储,二进制,压缩率底 RCfile:行分块,列式存储,解压效率差,读取稍慢 Parquet:列式存储,压缩比率高,但比ORC差,存取速度快 ORC:行分块,列式存储,压缩快,存取快,压缩率最高,RCfile升级版 二、表设计优化 1、创建分区表 2、创建桶表 3、拆分不同的表存储 三、sql参数优化 1、作业有多个可并行的job时,设置任务并行及并行个数: // 开启任务并行执行 set hive.exec

2020-10-20 16:16:44 290

原创 Shuffle机制

Shuffle机制 1)Map方法之后Reduce方法之前这段处理过程叫Shuffle 2)Map方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小100m,环形缓冲区达到80%时,进行溢写;溢写前对数据进行排序,排序按照对key的索引进行字典顺序排序,排序的手段快排;溢写产生大量溢写文件,需要对溢写文件进行归并排序;对溢写的文件也可以进行Combiner操作,前提是汇总操作,求平均值不行。最后将文件按照分区存储到磁盘,等待Reduce端拉取。 3)每个Red

2020-10-20 16:15:36 243

原创 HDFS读写数据流程

2020-10-19 11:26:28 93

原创 Hadoop常用端口号和配置文件

Hadoop常用端口号 dfs.namenode.http-address:50070 dfs.datanode.http-address:50075 SecondaryNameNode辅助名称节点端口号:50090 dfs.datanode.address:50010 fs.defaultFS:8020 或者9000 yarn.resourcemanager.webapp.address:8088 历史服务器web访问端口:19888 4.2.2 Hadoop配置文件以及简单的Hadoop集

2020-10-19 11:22:07 637

原创 面试Linux常用命令

Linux常用命令 序号 命令 命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写(yum install iotop安装) 4 iotop -o 直接查看比较高的磁盘读写程序 5 netstat -tunlp | grep 端口号 查看端口占用情况 6 uptime 查看报告系统运行时长及平均负载 7 ps aux 查看进程 Shell常用工具 awk、sed、cut、sort ...

2020-10-19 11:20:10 229

ElasticSearch Java开发Demo.zip

ElasticSearch Java:ransportClient将会在后面的版本中弃用,因此不推荐后续使用;而Jest由于是社区维护,所以更新有一定延迟,目前最新版对接ES6.3.1,近一个月只有四个issue,说明整体活跃度较低,因此也不推荐使用;Spring Data Elasticsearch主要是与Spring生态对接,可以在web系统中整合到Spring中使用。

2020-04-05

mysql进阶学习

mysql进阶帮助你更好的实现sql的提升,对资深sql水平有一个更高的标准

2018-10-15

mysql学习基础测试

mysql入门测试,帮助你更好的理解sql的语法,快速掌握sql入门技巧

2018-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除