忄凝^-CSDN博客

原创 2023新，centos7安装mysql8.0.25

centos7安装mysql8.0

2023-08-26 19:30:33 4073

原创 Superset 1.2.0 安装

superset 可视化工具 1.2 centos7.6安装

2022-08-05 10:56:38 1149

原创 Streamsets Data Collector 3.12

Streamsets sdc操作流程

2022-08-05 10:43:31 2429 2

6.6、字符串操作函数这里写目录标题6.6、字符串操作函数字符串拼接查找字符串第一次出现位置字符串大小写转换字符串截取-- 去除字符串之前和之后的任意个数的空格btrim(string a)trim(string a)-- 去除第一个字符串之前和之后的任何包含在第二个字符串中出现任意次数的字符btrim(string a,string chars_to_trim)-- 返回参数字符串，并从左侧删除任何前导空格ltrim(string a)-- 返回参数字符串，并从右侧删除任何后置空格rt

2022-02-25 17:51:24 3704

原创 impala的时间函数

这里目录6.5、获取时间函数6.5.1、时间格式转换6.5.2、时间计算函数6.5.3、获取指定单位时间函数6.5.4、时间比较函数6.5、获取时间函数-- 返回客户端所在时区的当前时间select CURRENT_TIMESTAMP() ; -- 返回详细时间，类型timestamp：2021-02-04 08:46:27-- 返回客户端所在时区的当前时间select now(); -- 返回详细时间，类型timestamp：2021-02-04 08:46:27-- 根据本地系统的时

2022-02-24 17:08:35 1940

原创 java、spark操作kudu

这里目录5、java 操作kudu5.1、构建 maven 工程、导入依赖5.2、初始化方法5.3、创建表5.4、插入数据5.5、查询数据5.6、修改数据5.7、删除数据或表5.8、kudu分区操作6、spark 操作kudu6.1、引入依赖6.2、创建表6.3、dataFrame操作kudu6.3.1、插入数据insert 操作6.3.2．删除数据 delete 操作6.3.3．更新数据 upsert 操作6.3.4、更新数据 update 操作6.3.5． DataFrame API

2022-02-23 15:26:35 1928

原创 Apache kudu 1.9.0

Apache kudu 1.9.0这里目录Apache kudu 1.9.01、背景介绍1.2、kudu 应用场景1.3、为什么用kudu1.4、对比Hbase与mysql1.4.1、存储模型1.4.1 结构1.4.1 主键1.4.1 事务支持1.4.2 性能1.4.3 硬件需求2、kudu架构2.1、Table2.2、Tablet2.3、Tablet Server2.4、Master Server3、kudu 原理3.1、 table 与 schema3.2、kudu 底层数据模型3.2.1、数据变更3

2022-02-23 15:24:22 496

原创 impala 3.2.0

impala 3.2.0这里目录impala 3.2.01、架构1.1、Impala 存储的状态1.2、Impala元数据和元存储1.3、查询处理接口1.4、查询执行过程2、与hive异同2.1、执行计划2.2、数据流2.3、内存2.4、调度2.5、容错2.6、适用面3、impala-shell 语法3.1、impala-shell 语法3.2、shell内部命令行3.2.1、show table stats 检查统计信息3.2.2、compute stats收集统计信息3.2.3、显示执行计划expla

2022-02-14 10:25:56 2044

原创 CDH 及6.3.2 搭建

CDH这里目录标题CDH1、平台介绍1.2. CDH提供2、CDH结构图3、 Cloudera Manager3.1. CloudraManager技术构成3.2. CM 功能5、CDH 6.3.2 安装部署5.1. 环境准备5.1.1. 虚拟机前置配置5.1.2. 虚拟机新增配置5.1.3. Mysql数据库5.1.4. 上传安装包5.1.5. 安装Httpd5.1.6. 制作本地Yum源5.2. CM安装部署5.2.1. 安装CM Server5.2.2. 安装CM Agent5.2.3. 初始化

2021-09-13 16:27:33 1545 1

原创数据的一致性

这里目录标题2、数据的一致性2.1. 定义2.2. 模型2.3. 最终一致性2、数据的一致性2.1. 定义一些分布式系统通过复制数据来提高系统的可靠性和容错性，并且将数据的不同的副本存放在不同的机器在数据有多分副本的情况下，如果网络、服务器或者软件出现故障，会导致部分副本写入成功，部分副本写入失败。这就造成各个副本之间的数据不一致，数据内容冲突。2.2. 模型强一致性要求无论更新操作实在哪一个副本执行，之后所有的读操作都要能获得最新的数据。弱一致性用户读到某一操作对系统特定数

2021-09-08 21:46:00 793

原创 CAP原则

这里目录标题1、CAP原则1.1. 定义1.2. 概念1.3. 推导1.4. 结论1、CAP原则1.1. 定义Brewer认为在分布式的环境下设计和部署系统时，有3个核心的需求，以一种特殊的关系存在。这3个核心的需求是：Consistency，Availability和Partition Tolerance；CAP定理认为：一个提供数据服务的存储系统无法同时满足数据一致性、数据可用性、分区容忍性。1.2. 概念Consistency：一致性，这个和数据库ACID的一致性类似，

2021-09-08 21:43:20 426

原创独立磁盘冗余阵列 Raid

0、磁盘阵列这里目录标题0、磁盘阵列0.1. Raid简介0.2. 条带化0.3. Raid00.4. Raid10.5. Raid20.6. Raid30.7. Raid40.8. Raid50.9. Raid60.10. Raid 选择0.1. Raid简介Redundant Arrays of Independent Disks（独立磁盘冗余阵列）将数据存放在多块磁盘肯定能解决IO瓶颈的问题磁盘阵列是由很多块独立的磁盘，组合成一个容量巨大的磁盘组，利用个别磁盘提供数据所产生加成效果

2021-09-08 21:39:03 1022 2

原创 Nginx

Nginx1、Nginx简介Nginx是一款自由的、开源的、高性能的、轻量级的Web 服务器/反向代理服务器。占有内存少，并发能力强。nginx可以作为一个HTTP服务器进行网站的发布处理，同时nginx可以作为反向代理进行负载均衡的实现。2、使用场景2.1. 高并发场景高并发通常是指通过设计保证系统能够同时并行处理很多请求。通俗来讲，高并发是指在同一个时间点，有很多用户同时的访问同一 API 接口或者 Url 地址。它经常会发生在有大活跃用户量，用户高聚集的业务场景中，会给服务器和硬

2021-09-08 21:02:08 245 1

原创 Nginx 1.8.1 安装

3、Nginx源码安装这里目录标题3、Nginx源码安装3.1. 上传解压3.2. 安装nginx依赖的软件3.3. 配置安装路径3.4. 开始编译并安装nginx3.5. 启动Nginx3.6. 关机拍照3.7. 常用命令3.1. 上传解压将安装包上传到Linux虚拟机解压，并把Nginx存放到指定目录[root@node01 ~]# tar -zxf nginx-1.8.1.tar.gz[root@node01 ~]# rm -rf nginx-1.8.1.tar.gz3.2. 安装

2021-09-08 20:55:42 1509

原创 ClickHouse

ClickHouse这里目录标题ClickHouse1、软件介绍1.1. 简介1.2. 特点1.3. 优点1.4. 缺点2、系统架构2.1. Column与Field2.2. 数据类型DataType2.3. 块Block2.4. 块流BlockStreams2.5. Formats格式2.6. 数据读写I/O2.7. 数据表Table2.8. 解析器Parser2.9. 解释器Interpreter2.10. 函数Functions2.10.1. 普通函数Functions2.10.2. 聚合函数Agg

2021-09-06 22:13:30 8523 2

原创 Flink Table API与SQL

这里目录标题11、Table API与SQL11.1 需要引入的 pom 依赖11.2、两种planner区别（old/blink）11.3、基本程序结构11.4. TableEnvironment11.5、表(Table)11.5.1 创建 TableEnvironment11.5.2 动态表11.5.2 注册表11.5.4 创建视图11.5.4 创建零时表11.6. TableAPI语法11.6.1. Scan, Projection, and Filter11.6.2. Column Operatio

2021-09-06 21:10:23 859

原创 Flink CEP

这里目录标题12、Flink CEP12.1. CEP概念12.2. Pattern API12.2.1. 单个模式12.2.2. 组合模式12.2.3. 循环模式12.3. 匹配后跳过策略12.4. 检测模式12.5. CEP的时间处理12、Flink CEP12.1. CEP概念复杂事件处理（Complex Event Processing，CEP）概念一个或多个由简单事件构成的事件流通过一定的规则匹配，然后输出用户想得到的数据。------满足规则的复杂事件。特点目标：从有序的

2021-09-06 20:39:59 417

原创 Flink 容错机制CheckPoint 与反压机制

这里目录1.简介2、Flink 搭建3、Flink 运行架构4、程序与数据流（DataFlow）5、Flink 流处理API6、Window 窗口机制7、时间语义与watermark8、状态管理State9、ProcessFunction API(底层API)10、容错机制CheckPoint10.1、容错机制10.2、一致性检查点 checkPoint10.2.2、Barriers(栅栏)10.3、先决条件10.4、checkpoint barrier 算法10.5、恢复Recovery10.6、启用

2021-09-06 19:53:49 1893

原创 Flink state状态与 ProcessFunction API

这里目录1.简介2、Flink 搭建3、Flink 运行架构4、程序与数据流（DataFlow）5、Flink 流处理API6、Window 窗口机制7、时间语义与watermark8、状态管理State8.1、状态概述8.2. 类型8.3. 算子状态（Operator State）8.3.2. 算子状态的数据结构8.4. 键控状态（Keyed State）8.4.2. 键控状态的数据结构8.3. 状态的挑战8.4. 任务失败8.5、状态后端State Backends8.5.1. MemoryStateB

2021-09-06 19:42:15 1169

原创 Flink Window机制与watermark水位线

这里目录标题1.简介2、Flink 搭建3、Flink 运行架构4、程序与数据流（DataFlow）5、Flink 流处理API6、Window 窗口机制6.1、策略6.2、类型6.3、Windows API6.3.1. 滚动窗口(Tumbling Window)6.3.2. 滑动窗口(Sliding Window)6.3.3. 会话窗口（session windown）6.3.4. 全局窗口(Global Windows)6.4、 window窗口聚合函数6.4.1. 增量聚合函数6.4.2. 全量窗口函

2021-09-06 19:33:14 1225

原创 Flink 流处理 API

这里目录标题5、Flink 流处理API5.1、Environment5.2、Source5.3、Transform (Operator)5.3.1. 基本转换算子5.3.2. 键控转换算子5.3.6. 多流转换算子5.3.9. 分布式转换算子5.4、支持的数据类型5.5、UDF函数5.6、富函数5.7、Sink5、Flink 流处理APIScala 编程中注意的隐式转换import org.apache.flink.streaming.api.scala._import org.apac

2021-09-06 19:14:59 474

原创 Zookeeper

Zookeeper这里目录标题Zookeeper1、ZooKeeper简介2、搭建ZooKeeper集群2.10、 ZKServer的命令3、zookeeper存储模型3.1. 存储结构3.2. 节点的分类4、zkServer的监听机制5、ZAB协议5.2. ZAB协议阶段5.3. 协议核心5.4. ZAB协议模式6、ACL权限控制（了解）7、分布式协调框架8、java访问zookeeper9、四字命令（了解）9.1. 安装nc9.2. 四字命令1、ZooKeeper简介ZooKeeper是一个开放源

2021-09-06 16:34:24 507

原创 Flink

这里目录标题1.简介1.1. 大数据计算引擎1.2、Flink 特点1.3、流处理框架对比1.4、事件驱动型1.5、Flink 技术栈1.6、Flink 编程模型2、Flink 搭建3、Flink 运行架构3.1、运行组件3.2、Job任务提交3.3、任务调度3.3.1、执行图 ExecutionGraph3.3.2、数据并行与任务并行3.3.3、TaskManager 和 Slots3.3.4、并行度（Parallelism）3.3.4. 任务并行度设置3.3.5、任务链 Operator Chains4

2021-09-06 09:40:32 723

原创 ClickHouse 21.6.8.62 环境搭建

3、ClickHouse环境搭建这里目录3、ClickHouse环境搭建3.1. 下载软件3.2. 上传安装3.3. 配置文件3.4. 启动服务3.5. 可视化工具3.1. 下载软件官方：https://repo.clickhouse.tech/rpm/stable/x86_64clickhouse-common-static — ClickHouse编译的二进制文件。clickhouse-server — 创建 clickhouse-server 软连接，并安装默认配置服务clickhou

2021-09-03 21:49:56 468

原创 Flink 1.9.3 搭建

2、Flink 搭建这里目录2、Flink 搭建2.1、Standalone 模式2.1.1. 下载上传解压拷贝2.1.2. 修改配置文件2.1.3. 拷贝到其他节点2.1.4. 修改环境变量2.1.5. 启动集群2.1.6 关机拍照2.1.7 部署任务（Web UI）2.1.8. 部署任务(命令行模式)2.2、Flink on Yarn 模式2.2.1. 配置2.2.2. Yarn-Session模式2.2.3. Single-job模式虚拟机的CPU核数尽量调成2个2.1、Standalone

2021-09-03 20:31:08 808

原创 spark 车流量项目实战

spark 车流量项目实战这里目录标题spark 车流量项目实战1、车流向项目介绍1.1. 数据采集1.2. 模块介绍1.2.1. 卡扣流量分析模块介绍1.3. 项目架构介绍1.4. 数据介绍1.4.1. 基本概念1.4.2. 表1.5. 需求分析2、数据流程3、spark任务如何将Spark任务提交到集群运行？4、模块功能4.1、卡口流量分析4.1.1. 卡口状态监控4.1.1.1. 统计卡口坏摄像头4.1.1.2. 统计每个区域车流量4.1.1.3. 统计每个区域的摄像头4.1.1.5 卡口流量分

2021-08-28 09:51:02 3337 7

原创 mysql insert ignore()函数

15、INSERT IGNORE语句当您使用该INSERT语句向一个表中添加多行时，如果在处理过程中发生错误，则MySQL终止该语句并返回错误。结果，没有行插入到表中。但是，如果使用该insert ignore语句，则会忽略包含导致错误的无效数据的行，并将具有有效数据的行插入表中。insert ignore into actor values (3,'ED','CHASE','2006-02-15 12:34:33')...

2021-08-28 09:18:55 525

原创 mysql cast()与convert() 函数

12、cast()与convert() 函数1、CAST(value as type) 就是CAST(xxx AS 类型)2、CONVERT(value, type) 就是CONVERT(xxx,类型)可用来获取一个类型的值，并产生另一个类型的值。二进制，同带binary前缀的效果 : BINARY字符型，可带参数 : CHAR()日期 : DATE时间: TIME日期时间型 : DATETIME浮点数 : DECIMAL整数 : SIGNED无符号整数 : UNSIGN

2021-08-28 09:08:06 528

原创 mysql IF()函数

11、IF（）IF(判断条件, true返回结果, false返回结果)SELECT IF(500<1000, 5, 10); ##5SELECT IF(STRCMP("hello","bye") = 0, "YES", "NO"); ## no

2021-08-28 09:06:06 258

原创 mysql interval()函数

7、interval()函数INTERVAL(N,N1,N2,N3,..........)其中，N是要判断的数值，N1,N2,N3,…是分段的间隔。这个函数的返回值是段的位置：如果N<N1，则返回0，如果N1<=N<N2，则返回1，如果N2<=N<N3，则返回2。所以，区间是前闭后开的。mysql>SELECT INTERVAL(6,1,2,3,4,5,6,7,8,9,10);+-------------------------------------

2021-08-28 08:56:50 524

原创 DataX

DataX这里目录标题DataX1、DataX3.0概览1.1. 设计理念1.2. 当前使用现状3、DataX 3.0六大核心优势3.1. 可靠的数据质量监控3.2. 丰富的数据转换功能3.3. 精准的速度控制3.4. 强劲的同步性能3.5. 健壮的容错机制3.6. 极简的使用体验4、工具对比（Datax,Flume,Sqoop）4.1、DataX4.2、Flume4.3、Sqoop6、 DataX3.0框架设计6.1. 核心模块介绍6.2. DataX调度流程6.3. DataX-

2021-08-26 19:18:40 707 1

原创 Flume 1.9.0

Flume这里目录标题Flume1、Flume简介1.1、 Flume概述1.2、Flume使用场景1.3、 Flume优点2、 Flume的体系架构2.1、Flume架构2.2、Flume的组件详解2.2.1. Agent结构2.2.2. source2.2.3. channel2.2.4. sink2.2.5. Interceptor2.3、Flume特性2.4、Flume执行流程2.5、Flume事务3、Flume安装4、Flume使用4.1. 案例1监控端口数据4.2. 案例2 两个flum

2021-08-19 22:08:06 985

原创 mysql 字符串操作函数

8、字符串操作这里目录标题8、字符串操作8.0、字符串操作函数8.1、转大小写8.2、首字母大写8.0、字符串操作函数concat(str1,str2…)：将多个字符串连接成一个字符串concat_ws(‘连接符’,str1,str2)：指定分隔符进行拼接字符串concat(str1, str2,...)　concat(str1, seperator,str2,seperator,...)concat_ws(separator, str1, str2, ...)select co

2021-08-18 14:36:56 489

原创 mysql 日期转换

6、日期转换目录6、日期转换6.1、日期、字符串互转6.1.2、（日期、天数）转换函数6.1.3. （时间、秒）转换函数：6.2 日期（字符串）转时间戳2.1、日期时间戳互转2.2、字符串时间戳互转6.1、日期、字符串互转date_format（date, format）日期转字符串-- 同上，日期转换格式，即可转换字符串date_format(date, format) 函数用于以不同的格式显示日期/时间数据。TIME_FORMAT(time,format) 时间格式化tr_to_d

2021-08-18 11:21:12 1654

原创 Kylin

Kylin这里目录标题Kylin1、数据仓库1.1. 核心概念1.2. 数据仓库 DW1.3. `OLAP`和`OLTP`1.4. 维度和度量1.5. `Cube`和`cuboid`1.5.1. `Cube Segment`1.6. 事实表和维度表1.7. 多维数据模型1.7.1. 星型模型(`star schema`)1.7.2. 雪花模型(`snowFlake schema`)1.7.3. 两者间的区别2、KyLin2.1. 由来2.2. 为什么使用它2.3. `Kylin`的工作原理2.4. `K

2021-08-18 10:55:28 1924

原创 Kylin集群安装部署

这里目录标题3、`Kylin`集群安装部署3.1. 下载上传3.1.2 修改 hive 配置文件3.1.3 修改 hbase 配置文件3.1.4 配置 kylin 相关环境变量3.1.5 修改配置文件3.1.6 拷贝kylin到其他节点3.1.7 启动3.1.8 关机拍照3、Kylin集群安装部署安装前提OS: CentOS 7java 1.8zookeeper 3.4.5https://blog.csdn.net/weixin_43660536/article/details/1183

2021-08-18 10:17:52 684

原创 Spark三种连接方式

Spark三种连接方式目录Spark三种连接方式1、Spark core2、spark SQL2.1. 普通文本2.2. json2.3. parquet2.4. jdbc2.5. hive3、spark streaming3.2. streaming+kafka1、Spark coreval sparkConf: SparkConf = new SparkConf().setMaster("local").setAppName("name") val sparkContext = new S

2021-08-15 15:44:47 2256

原创 Spark 优化

Spark 优化这里写目录标题Spark 优化1、资源调优1.1. 在部署spark集群中指定资源分配的默认参数1.2. 在提交Application的时候给当前的Application分配更多的资源1.2.1. 提交命令选项：（在提交Application的时候使用选项）1.2.2. 配置信息：（Application的代码中设置或在Spark-default.conf中设置）1.2.3. 动态分配资源2、并行度调优3、代码调优3.1. 避免创建重复的RDD3.2. 对多次使用的RDD进行持久化3.

2021-08-13 20:50:47 310

原创 spark-Streaming

spark-Streaming这里写目录标题spark-Streaming1、SparkStreaming简介2、SparkStreaming与Storm的区别3、SparkStreaming流式计算3.1. 流式计算过程3.2. 流式计算特性3.3. 编程模型DStream4、SparkStreaming代码实现4.1. 代码实现4.2. DStream转换操作4.3. DStream窗口操作4.4. DStream输出操作5、SparkStreaming数据源5.1. 基础数据源5.2. 高级数据源7

2021-08-13 20:40:02 925

azkaban-3.90.0.tar.gz

storm_wordcount.zip

spark_hello.zip

空空如也