cipay666-CSDN博客

原创大数据面试要点3

项目经验： Hadoop 四个插哨 hdfs参数调优： NameNode有一个工作线程池，用来处理datanode的心跳 yarn优化（1）单个任务的最大物理内存8G （2）yarn上可使用的内存总量：8G HDFS空盘闲置率在70%之下 Flume优化： Flume的内存配置为4G(flume-env.sh) FileChannel优化：配置多路径，增大Flume的吞吐量 checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中保证checkpoint坏掉后

2020-10-20 16:29:28 234

原创大数据面试要点2

Hive 内部表：删除表会删除原始数据外部表：删除表不会删除原始数据排序： sort by ：分区内排序 order by：全局排序 Distrbute by ：分区内结合sortby使用 Cluster by：当Distrbute by和sort by字段相同时使用，不能指定排序规则窗口函数： rank（） dense_rank row_number: over(): 自定义UDF和UDTF ）用UDF函数解析公共字段；用UDTF函数解析事件字段。自定义UDF：继承UDF，重写evaluate方法

2020-10-20 16:27:20 181

原创大数据面试要点1

yarn调度器： 1.FIFO调度器：先进先出，并行度为1 2.容量调度器：先进先出：并行度为队列的个数 3.公平调度器：多队列；每个队列内部按照缺额大小分配资源启动任务，同一时间队列中有多个任务执行。队列的并行度大于等于队列的个数。 Lzo压缩： hadoop默认不支持Lao压缩，需要添加Jar包并在cores-site.xml中添加相关压缩配置 Hadoop参数调优 1 在hdfs中配置夺目录 2.namenode有一个工作线程池用来处理并发的心跳和元数据操作 dfs.namenode.handler

2020-10-20 16:26:25 172

原创 Spark面试相关

Spark Spark的集中部署方式： local：运行在一台机器上 Standlone：构建一个master+Slaves的资源调度集群 Spark自身的一个调度系统 Yarn：Spark客户端直接连接Yarn。不需要额外构建Spark集群有yarn-cluster和yarn-client两种模式 Mesos：较少 Spark任务使用Shell脚本提交 Spark提交作业参数： executor-cores：内核数“2-5个” executor-memory：默认1G driver-cores:默认为1

2020-10-20 16:23:44 150

原创业务数仓总结

讲课，备课，开发业务数据仓库的总结：一表实体订单表：用户表：商品分类：交易流水：二.表分类实体表维度表事务性事实表周期性事实表三.同步策略全量新增新增和变化 create_time 和operate_time ===cannal 范式： 1范式：属性不可切割 2范式：不能存在部分函数依赖 3范式：不能存在传递依赖四。建模方式星型模型：外围只有一层维度雪花：外围有多层维度五.sqoop 导入导出问题 hive底层存储null 为\N 导出数据时：–input-n

2020-10-20 16:21:45 297

原创即席查询之Druid

Druid ：列式分布式实时分析的数据存储系统，处理PB级数据、毫秒级查询、数据实时处理，比传统的OLAP系统有了明显的性能改进阿里巴巴开源的项目官网：http://druid.io 阿里还有一个druid数据库连接池的框架，解决的是不同的问题特点： 1.）列式存储结构查询速度很快 2.）可扩展的分布式系统，每秒几百万条数据 3.）大规模的并行处理 4.）实时或批量处理 5.）自愈、自平衡、易操作：集群扩展或缩小，只需要添加或者删除服务器集群将会在后台自动重新平衡，无需任何停机时间 6.）

2020-10-20 16:20:11 362

原创即席查询之Presto

Presto ：分布式sql查询引擎 GB–PB 处理秒级查询的场景注意：不是一个标准的数据库，不是mysql的替代品，也不能处理在线事务（OLTP）属于OLAP分析引擎： 1）客户端提交查询，从Presto命令行CLI提交到Coordinator 2）Coordinator解析查询计划，把任务分发给Worker 3) Worker负责执行任务和处理数据 4）Catolog表示数据源。一个Catolog包含Schema和Connector 5）Connector相当于jdbc连接池 6）Schem

2020-10-20 16:18:52 514

原创 Hive性能调优

一、存储优化，选用ORC text：行存储，默认不压缩，序列化、反序列化开销大 sequence：行存储，二进制，压缩率底 RCfile：行分块，列式存储，解压效率差，读取稍慢 Parquet：列式存储，压缩比率高，但比ORC差，存取速度快 ORC：行分块，列式存储，压缩快，存取快，压缩率最高，RCfile升级版二、表设计优化 1、创建分区表 2、创建桶表 3、拆分不同的表存储三、sql参数优化 1、作业有多个可并行的job时，设置任务并行及并行个数： // 开启任务并行执行 set hive.exec

2020-10-20 16:16:44 290

原创 Shuffle机制

Shuffle机制 1）Map方法之后Reduce方法之前这段处理过程叫Shuffle 2）Map方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小100m，环形缓冲区达到80%时，进行溢写；溢写前对数据进行排序，排序按照对key的索引进行字典顺序排序，排序的手段快排；溢写产生大量溢写文件，需要对溢写文件进行归并排序；对溢写的文件也可以进行Combiner操作，前提是汇总操作，求平均值不行。最后将文件按照分区存储到磁盘，等待Reduce端拉取。 3）每个Red

2020-10-20 16:15:36 243

原创 HDFS读写数据流程

2020-10-19 11:26:28 93

原创 Hadoop常用端口号和配置文件

Hadoop常用端口号 dfs.namenode.http-address:50070 dfs.datanode.http-address:50075 SecondaryNameNode辅助名称节点端口号：50090 dfs.datanode.address:50010 fs.defaultFS:8020 或者9000 yarn.resourcemanager.webapp.address:8088 历史服务器web访问端口：19888 4.2.2 Hadoop配置文件以及简单的Hadoop集

2020-10-19 11:22:07 637

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

cipay666的博客