github_28583061-CSDN博客

原创数据中台实战课笔记

数据中台元数据元数据包括数据字典 -- 描述数据的结构信息表名，注释信息，表的产出任务，有哪些字段，字段含义，字段类型数据血缘 -- 表的加工关系，由哪些表加工而来影响分析和故障溯源数据特征 -- 数据的属性信息存储空间大小，访问热度，主题域，分层，表关联的指标业界元数据产品开源的有 Netflix 的 Metacat、Apache Atlas；me...

2021-01-23 05:04:50 1010

插件translation高亮提示 HighlightBracketPairalibaba java coding guidelineslombokmaven helpermybaitsX ， MyBatis Log Plugin ，Bytecode ViewerIdeaJad其他https://mp.weixin.qq.com/s?__...

2020-10-10 00:25:27 284

原创 redis

redis 和 memcached 有啥区别？redis 支持复杂的数据结构redis 相比 memcached 来说，拥有更多的数据结构，能支持更丰富的数据操作。如果需要缓存能够支持更复杂的结构和操作， redis 会是不错的选择。redis 原生支持集群模式memcached 没有原生的集群模式，需要依靠客户端来实现往集群中分片写入数据。性能对比redis 只使用单...

2020-07-28 00:33:29 613

原创 SparkSQL自适应执行优化引擎

Spark SQL 自适应执行优化引擎背景Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行，从而提高整体执行效率。核心在于两点执行计划可动态调整调整的依据是中间结果的精确统计信息spark 2.3 开始试验功能spark 3.0 正式发布自适应查询执行（Adaptive Query Execution）现状与挑战如何设置合适的shuff...

2020-07-28 00:33:29 705

原创 Apache_Spark_生产使用最佳实践

Apache Spark 生产使用最佳实践视频地址git地址：https://github.com/montevideolabs/attractions-recommender

2020-07-28 00:33:29 136

原创 Faster_SQL_Queries_on_Delta_Lake_with_Dynamic_File_Pruning

通过动态文件剪裁实现在delta late上的快速查询原文两种传统的数据查询加速的方案：以更快的速度处理数据通过跳过无关的数据，减少数据量Dynamic File Pruning (DFP) ：动态文件裁剪是一种新的数据跳过（data-skipping, 直接跳过一些不相关的数据分区文件）技术对于在delta lake 表上选择非分区列join的时候可以显著提高查询...

2020-07-28 00:33:29 140

原创 3_how_to_delete_update_merge_work

Tech Talk | Diving into Delta Lake Part 3: How do DELETE, UPDATE, and MERGE workhttps://www.youtube.com/watch?v=7ewmcdrylsAupdate 更新操作SQL : UPDATE table SET x=y WHERE predicate底层操作进行了2...

2020-07-28 00:33:29 119

原创 The_Internals_of_Apache_spark_3.0.0

The Internals Of Apache Spark 3.0.0 笔记 --TODO原文（https://books.japila.pl/apache-spark-internals/apache-spark-internals/index.html）Resilient Distributed Dataset弹性分布式数据集，spark core模块对于数据集的核心抽象RDD 就...

2020-07-28 00:33:29 169

原创 structured-streaming-in-apache-spark

Spark Structured StreamingA new high-level API for streaminghttps://databricks.com/blog/2016/07/28/structured-streaming-in-apache-spark.html

2020-07-28 00:33:29 247

原创一致性hash算法

一致性hash算法出现原因分布式集群中，通过key 求 hash 取余节点数决定访问位置，实现数据分片当节点数变化时（新增节点，节点出错），需要全部重新计算迁移原理一致性hash是对2^32取模，假设有一个圆环：对2 ^32取余是有依据的IPV4最大数量就是2^32，所以这样就能保证所有的ip的地址进行取余时不会重复—对应hash环上面的正数。服务器位置确...

2020-07-08 06:58:59 266

原创 5-sparksql-join

join 操作join 笛卡尔积代码流程spark.conf.set("spark.sql.autoBroadcastJoinThreshold", -1) // 关闭 broadcast hit//1 加载数据成DataFrameval df = spark.read.json("examples/src/main/resources/people.json&#...

2020-07-08 06:58:59 438

原创 Transaction_Log

参考阅读https://www.iteblog.com/archives/2584.htmlhttps://www.iteblog.com/archives/2591.htmlhttps://www.youtube.com/watch?v=F91G4RoA8is&list=PLTPXxbhUt-YVPwG3OWNQ-1bJI_s_YRvqP&index=15&t=2...

2020-07-08 06:58:59 242

原创 2_Enforcing_and_Evolving_the_Schema

Tech Talk | Diving into Delta Lake Part 2: Enforcing and Evolving the Schemahttps://www.youtube.com/watch?v=tjb10n5wVs8&list=PLTPXxbhUt-YVPwG3OWNQ-1bJI_s_YRvqP&index=16&t=0s主题内容数据，和我...

2020-07-08 06:58:59 98

原创 1_data_reliablility_for_data_lakes

Delta Lake: Reliability and Data Quality for Data Lakes and Apache Spark by Michael Armbrust视频连接https://www.youtube.com/watch?v=GGkRwVHq-Zchttps://www.youtube.com/watch?v=7y0AAQ6qX5w&list=PLT...

2020-07-08 06:58:59 457

原创 cdh_操作

动态资源配置（CDH 6.1.0)基础介绍根据不同项目或不同用户，对yarn资源队列进行划分，达到资源管控，任务管控的目的yarn资源池可以嵌套，可以在父资源池的基础上，更细粒度资源分配池默认有一个名为root.default 的资源池，所有yarn applications运行在这个资源池。root.users资源池，是一个父资源池,通过root.users.[username]规则...

2020-07-03 09:37:22 202

原创 docker

docker -- 精通Docker第三版 https://alanhou.org/portainer-gui-docker/win10 安装dockertoolbox 安装mklink /J "C:\Users\Administrator.docker" "G:\vm\machines"C:\Users\Administrator.docker\mac...

2020-07-03 09:19:38 393

原创 ClusterInstall

集群安装cdh 安装https://blog.csdn.net/u010003835/article/details/85007946CDH6.1.0离线安装部署https://blog.csdn.net/xsjzdrxsjzdr/article/details/86064094https://www.cloudera.com/documentation/enterprise/5...

2020-07-03 09:17:22 321

原创 deltalake官网

原文https://docs.databricks.com/delta/index.html

2020-07-01 09:38:48 391

原创 recommend

Recommend 推荐算法人口统计学的推荐（Demographic-based Recommendation） --根据系统用户的基本信息发现用户的相关程度，这种被称为基于人口统计学的推荐（Demographic-based Recommendation）因为不使用当前用户对物品的喜好历史数据，所以对于新用户来讲没有“冷启动（Cold Start）”的问题。这个方法不依赖于物品本身的数...

2020-07-01 09:38:48 371

原创 hive

hive -- https://cwiki.apache.org/confluence/display/Hive/Homehive整理总结http://www.yiibai.com/hive/hive_partitioning.htmlHive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统hive 数据单元Databases不同的名称空间，避免表...

2020-07-01 09:38:48 245

原创 ApacheSpark3.0动态分区裁剪

Apache Spark 3.0 动态分区裁剪静态分区裁剪（Static Partition Pruning）spark sql 在执行查询的时候根据过滤条件实现谓词下推，分区剪裁，跳过不必要的分区，减少读取数据量select * from sales where day_of_week = "mon"spark 在编译时会把filter算子下推到数据源，转成数据...

2020-07-01 09:38:48 343

原创 zookeeper

zookeeperhttps://www.cnblogs.com/felixzh/p/5869212.html实现功能Zookeeper通知机制客户端注册监听它关心的目录节点，当目录节点发生变化（数据改变、被删除、子目录节点增加删除）时，zookeeper会通知客户端。Zookeeper命名服务典型应用dubbo,注册中心，服务发现Zookeeper的配置管理现...

2020-07-01 09:38:48 182

原创 spring集成

spring 集成框架https://docs.spring.io/spring-boot/docs/current-SNAPSHOT/reference/htmlsingle/#boot-features-kafka

2020-07-01 09:38:48 109

原创深入理解kafka_核心设计与实践原理笔记

基础服务端基础参数配置zookeeper.connect -- broker 连接zookeeper集群的服务地址主机地址：端口号，多地址用都好隔开添加chroot路径，为kafka集群设置根路径， localhost:2181,localhost2:2181/kafkalisteners -- broker监听客户端连接的地址kafka支持协议PLAINTEXT(默认)，SS...

2020-07-01 09:38:48 708 1

原创 activiti

Activiti 工作流主要功能管理流程, 处理业务流程的适应业务流程的变化，降低开发维护成本基础流程定义工作流，activiti 以图的方式定义：有哪些步骤业务流程建模与标注（Business Process Model and Notation，BPMN) ，描述流程的基本符号，包括这些图元如何组合成一个业务流程图（Business Process Diagram）BP...

2020-07-01 09:38:48 165

原创学习方法

框架技术学习方法系统地学习 -- 学习模板背景 & 因果技术出现的背景，初衷，实现什么目标，解决什么问题优势 & 劣势技术的优缺点场景业务场景技术场景组件 & 关键点核心思想和核心组件底层原理 & 关键实现对比与已有的实现对比，任何技术都有不同的实现，不同的侧重点，可以拓宽思路和想法举一反三 ---...

2020-07-01 09:38:48 125

原创 spring_shrio_jwt

springboot + shrio + jwtshrioshiro中用户认证和用户授权是分开的。用户认证（可以理解为登陆）叫Authentication，用户授权叫Authorization，Realm 是存储客户端安全数据如用户、角色、权限等的一个组件，可以理解为DAO。shiro先用filter拦截请求，然后调用realm获取用户的认证、授权信息。参考https://blo...

2020-07-01 09:38:48 116

原创 kafka最佳实践

Apache Kafka 最佳实践参考https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTMwNQ==&mid=2650721159&idx=1&sn=c2dcc4b183f59678c75582ca9738795e&chksm=887dd6f1bf0a5fe79d1c8012cb57612064d348a92cf610...

2020-07-01 09:38:48 244

原创常用数据结构

常用数据结构https://mp.weixin.qq.com/s?__biz=MzI1MTIzMzI2MA==&mid=2650565995&idx=1&sn=9a0325e8dfe9d366440f05e693a4d7e0&chksm=f1fedbe8c68952fecfb467391a29f580082fb2c6522c47c37ae4802ae43a7ca...

2020-07-01 09:38:48 223

原创 cdh阿里云安装

集群安装(cdh 6.2.1)cdh 安装https://blog.csdn.net/u010003835/article/details/85007946CDH6.1.0离线安装部署https://blog.csdn.net/xsjzdrxsjzdr/article/details/86064094https://www.cloudera.com/documentation/...

2020-06-04 00:32:53 945

原创 Java_NIO

JAVA NIOnio 类图主要组件Channels连接支持非阻塞IO的读/写的通道BuffersChannels通道直接用来进行读/写操作的类数组对象分配对外内，外设读取加速Selectors能知道哪些Channels通道集合存在IO事件SelectionKeys提供IO事件状态信息和IO事件绑定功能的类NIO基本结构1 。服务端：...

2020-06-03 13:26:19 71

原创数据中台

背景与适用场景数据中台架构核心组成底座是数据基础平台数据采集平台数据计算平台数据存储平台中间两大块中台负责把模型组织成可以对外服务的数据：数据指标，数据标签公共数据区数据仓库（数据湖），负责公共数据模型研发，统一指标（标签）平台上层是数据应用服务层将公共数据区的数据对外包装并提供服务：数据接口平台多维查询平台数据可视化平台数据分析平台...

2020-06-03 13:26:19 992

原创 Readme

大数据学习Apache Sparkspark概述.mdspark 源码基础0-SparkRdd-基础.md1-SparkContext-初始化-Standalone.md2-spark任务处理流程-Standalone.md3-spark_shuffle过程-Standalone.mdspark on yarnspark on yarn submitsparkOnya...

2020-06-02 00:37:40 120

原创 kafka源码分析_服务端

基础流程 - V2.5本地调试服务端启动 -- kafka.kafka.main()启动日志分析starting (kafka.server.KafkaServer) -- 启动kafkaServerConnecting to zookeeper on localhost:2181 (kafka.server.KafkaServer) -- kafkaServer链接zk [Zoo...

2020-06-01 12:32:37 461

原创 kafka源码分析_生产者_消费者

基础使用 - V2.5 - springboot集成测试代码地址官方教程pom 导入 spark boot kafka依赖<dependency> <groupId>org.springframework.kafka</groupId> <artifactId>spring-kafk...

2020-06-01 12:32:37 243

原创 Spring-kafka源码分析_生产者_消费者

基础使用 - V2.5 -springboot集成kafka之spring-kafkaspringboot集成测试代码地址官方教程pom 导入 spark boot kafka依赖<dependency> <groupId>org.springframework.kafka</groupId> ...

2020-06-01 12:32:37 382

原创 map

HashMap以key-value方式存储数据，可以快速存放和快速读取hashmap的比较重要的两个参数initialCapacity（初始容量），loadFactor（负载因子），对于性能有影响，都可以通过构造函数进行初始化initialCapacity 默认初始大小为 1 << 4 , 通常推荐初始化时指定，根据实际业务情况设置合理大小，避免rehash操作...

2020-06-01 01:32:40 150

原创 spark-submit

org.apache.spark.deploy.SparkSubmit执行流程SparkSubmit#doSubmit// 解析参数并做参数验证，val appArgs = parseArguments(args)submit(appArgs, uninitLog)//SparkSubmit#submit// 环境准备 // childMainClass: org.apache.s...

2020-06-01 01:32:40 145

原创 sparkOnYarn基础流程

在yarn上运行的基本操作程序提交的服务器需要包含HADOOP_CONF_DIR 或者 YARN_CONF_DIR环境变量，指向包含hadoop集群配置的文件目录因为程序提交时，不会指定与 HDFS , YARN resourceMamager交互的地址和端口，是从服务器环境变量找到对于的配置文件去读取相应的配置spark on yarn的两种运行方式：cluster 模...

2020-06-01 01:32:40 668

原创 cdh 阿里云安装

集群安装(cdh 6.2.1)cdh 安装https://blog.csdn.net/u010003835/article/details/85007946CDH6.1.0离线安装部署https://blog.csdn.net/xsjzdrxsjzdr/article/details/86064094https://www.cloudera.com/documentation/...

2020-05-27 16:55:07 368

hbase 表设计

Data Science for Business.pdf

空空如也