清欢渡12138-CSDN博客

原创 window中mysql5.7卸载，重装8.x版本

（2）找到之前安装MySQL的路径，删除MySQL文件夹。比如：我的安装路径在C盘，C盘–> Program Files–> MySQL --> 删掉MySQL文件夹（因为文件夹中还有残留文件）（3）打开C盘 --> 找到programDate（这个是隐藏文件）–> MySQL --> 删掉MySQL文件夹（因为这个文件夹中还有数据残留）在进行安装之前，把之前MySQL的残留文件删的干干净净的，在安装MySQL的时候才能顺利。小提示：经过这四个步骤，可以把你的MySQL卸载的干干净净。

2023-02-21 14:42:06 626

原创 hive中用not in查询正确数据，返回值为空

hive中用not in查询，返回结果为空

2023-02-03 14:26:11 1439 1

原创 oracle数据库安装后，连接数据库报错：不能初始化“D:Aoracle_testlinstantclient_12_20oci.dll“你确认已经安装了64位Oracle Client吗?

安装 vc2013_x64_12.0.30501.exe 文件（自行百度下载）再次运行oracle客户端，就不会报错了。12版数据库在安装完之后，会报错如下图。

2023-01-06 18:01:24 2708

原创 hive中空值无法通过is null 和 =‘’ 判断出来，解决办法

hive解决空值无法判断问题，空值为nul

2022-08-30 15:27:19 1314

原创解决win10虚拟机和主机不能互相粘贴复制的问题

解决方法

2022-07-24 15:40:06 1868

原创 case when 和over从句结合用法，分区，限制，去重条件求和

高级sql用法

2022-06-24 15:57:09 1201

原创 HIVE SQL--去掉字符串最后四位

利用函数嵌套，可以实现这个要求让regexp_replace 函数和 substr 函数嵌套一下，就可以了select regexp_replace('3123091490A011',substr('3123091490A011',-4,4),'');

2022-04-14 09:26:39 6287

原创 hbase数据块损坏，导致hadoop进入安全模式，hbase不能使用，jar包不能运行的情况，处理办法，ERROR: ..hadoop.hbase.Server is not running yet

我一开始运行jar包，出现一下问题，仔细一看是节点没有启动，就去启动hbase看看但是，进入hbase后，输入命令会有如下报错，到网上搜了一下，说是hadoop进入了安全模式，所导致的，把关了就行，一般都是数据块损坏导致进入了安全模式，这时候，1、可以选择强制退出安全模式，2、或者修改配置文件hdfs-site.xml，降低进入安全模式的阈值默认值是0.999，将值该小就行<name>dfs.namenode.safemode.threshold-pct</name>

2021-09-16 15:43:47 1331

原创 spark的textFile方法读取文件，跳过表头第一行

按照下面代码运行即可 sc.textFile("hdfs://192.168.119.180:9820/app/data/exam2/china_provincedata.csv") .zipWithIndex().filter(_._2>=1) //删除表头第一行

2021-09-12 21:44:42 3863 1

原创 ModuleNotFoundError: No module named ‘test.Test‘ 报错

1、报错如下面的，是因为python下面有一个test模块，出现了包名冲突，，改个名字就行了.....ModuleNotFoundError: No module named 'test.Test'2、解决办法将test包名改掉，就能正常运行

2021-09-06 16:43:18 2907

原创 win10 Pycharm pip 出现 Script file ‘D:\Anaconda3\Scripts\pip-script.py‘ is not present 错误解决办法

1、第一种easy_install pip# 如果上面命令无效 ,可以使用下面的命令easy_install -i https://mirrors.aliyun.com/pypi/simple pip2、第二种环境变量，以下变量，有的全部添加D:\developtools\python\Anaconda3;D:\developtools\python\Anaconda3\Library\mingw-w64\bin;D:\developtools\python\Anaconda3\Libra

2021-09-06 16:03:59 652

原创 JDK位置改变，修改对应idea配置

1、2、3、选择对应的jdk位置，然后全部确认就可以了

2021-09-05 15:17:43 1308 1

原创 Flink--source/数据不同的来源

文章目录Flink Source不同的来源1、Source几个不同的来源2、kafka作为数据源，flink读取3、myslq数据库作为数据源，且自定义SourceFlink Source不同的来源1、Source几个不同的来源//创建环境val env = StreamExecutionEnvironment.getExecutionEnvironment//基本的数据源//1、端口数据源env.socketTextStream(“master”，6666) //连接虚拟机等端口，mas

2021-08-28 13:54:04 508

原创 Flink窗口-process和eventtimr- watermark延迟窗口

Flink窗口0、准备数据train_1,1547718199,35.8train_2,1547718200,35.9train_2,1547718202,36.1train_3,1547718203,36.2train_6,1547718205,36.5train_7,1547718206,35.8train_1,1547718207,35.9train_2,1547718208,36.7train_1,1547718210,38.1train_2,1547718213,35.9

2021-08-27 00:14:11 298

原创用sqoop将数据从mysql导入hive报错：org.apache.hadoop.mapred.FileAlreadyExistsException: Output

报错信息利用sqoop将数据从myslq导入hive时候，可能会报如下错误解决办法上诉错误是因为在 sqoop的 lib 目录下，缺少一个 hive的 lib 的目录下的一个 jar 包需要将hive-common-2.3.3.jar 包，复制到sqoop的lib目录下 cp /opt/software/hive/hive/lib/hive-common-3.1.2.jar /opt/software/sqoop/sqoop/lib/...

2021-08-03 23:54:42 1997 1

原创 Scala 中Array的算子

提取元素val v:T = arr.head 提取第一个元素val v:Option[T] = arr.headOption 提取第一个元素，返回值是一个Option类型，与上面相比，这个即使是空元素也不会报错，返回一个Noneval v:T = arr.last 提取最后一个元素val v:Option[T] = arr.lastOptin 提取最后一个元素，返回值类型是Option类型，空元素也不会报错val v:T = arr(index:Int) 根据下标

2021-07-29 20:56:03 320

原创 scala中包和作用域

1、包声明1、包声明面对不同场景，我们对包的需求也不同首先 package sc.kg.scalaoop.test 像上面的这种是一般这一个文件就只有一个类，一个模块，作用域就是这个整个文件 package sc.kg.scalaoop.test01{ 作用域 } package sc.kg.scalaoop.test02{ 作用域 } 像上面这种就是一个文件，有多个模块，不止两个，每个包的作用域就在{}里面 package object packobj{ 作用域 }

2021-07-18 20:14:36 307

原创 mybatis--mysql--- 过程-配置文件---xml文件

目录具体流程1、pom.xml配置文件2、实体类要求3、mapper接口中的方法增删改查4、与mapper接口对应的xml文件配置5、连接mysql配置文件6、mybatis配置文件7、测试类具体流程通过mybatis对mysql数据库进行操作创建的时候，包要一层一层1、创建一个mevan工程，在pom.xml文件中导入两个依赖的jar包2、在main下创建一个resource类型文件，且和java下面的每一层目录都要相对应，，注意层次感3、首先要创建一个实体类，这实体类的属性要和表格中的字

2021-07-06 19:37:57 906

原创 sqoop：把数据从mysql导入到hive中

用sqoop把数据从mysql导入进hive中首先你得在mysql中有个表，自己找一个有数据的表格sqoop代码sqoop impot \--connect jdbc:mysql://wangtengfei:3306/test \--username root \--password 12345678 \--table studentinfo \-m 1 \--hive-import \--hive-table test.user_infor \--create-hive-table

2021-07-01 17:05:44 3746

原创 sqoop job的创建，查看，开启和删除

在shell中操作job命令#查看jobsqoop job --list#删除jobsqoop job --delete jobname#查看job的定义sqoop job --show jobname#启动jobsqoop job --exec jobname其中的jobname是你自己创建的job的名称，也可以通过查看job命令知道当前有哪些job，然后开启创建jobsqoop job \--create job_m2hv_par \-- import \--co

2021-06-30 21:14:37 1298

原创 sqooop分区表单导入

分区表单导入过程：将mysql中的数据线上传到hdfs中，在从hdfs中传入到hive中开启了动态分区：一次性将某张表的数据写入另一张分区表的多个分区中去先建一张表mysql数据create table sqp_partition(id int,name varchar(20),dotime datetime);导入数据insert into sqp_partition(id,name,dotime) values(1,'1sd','2021-06-01 13:23:05'),(2

2021-06-30 19:06:34 296

原创 YARN中job的工作流程

job工作流程图首先Yarn是一个资源调度的平台，负责为运算程序提供服务器运算资源，可以看成是一个分布式的操作平台，MapReduce等运算程序则都是可以看成是在操作系统上运行的应用程序。Yarn的基本架构Yarn主要就两个常驻进程ResourceManager好、NodeManager和两个临时进程ApplicationMaster和Container等构乘，其中，临时进程只有在有job的时候才会启动job工作流程借助上面的两个图来看，结合着理解1、提交作业，申请jobID client

2021-06-29 20:14:29 744 1

原创 sqoop导入导出语句知识点：导出数据，导入数据，全量导入，增量导入

前置在刚开始发展的时候，hadoop和sqoop是绑定在一起的，后来发展的原因，sqoop就独立出去了目前比较稳定的版本是1.4.6或者1.4.7版本，这个版本的sqoop要和hadoop 2.x，hive 1.x， hbase 1.x版本配合使用但是我用的是hadoop 3.1.3和hive 2.3.5版本的，因此sqoop 1.4.6的版本就有些不支持操作类型操作类型的参考方向hadoop(hdfs|hive|hbase) – export --> RDBMS(mysql|oracl

2021-06-29 17:25:27 707

原创虚拟机中hive连接不上，进去hive界面，解决办法

问题今天在启动服务之后，通过命令beeline -u jdbc:hive2://192.168.119.180:10000进不去hive界面，通过命令netstat -anp|grep 10000也查询不到端口，如下图所示后来经过老师个同学才知道，是安全模式没有关闭，在安全模式关闭只有，等几分钟就可以正常查询到端口和进去到hive界面了开启安全模式hdfs dfsadmin -safemode enter关闭安全模式hdfs dfsadmin -safemode leave获取

2021-06-29 16:13:48 7597 1

原创 sqoop1.4.6安装和配置

0、解压、重命名、配置环境变量并激活#解压到指定文件夹tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/software/#重命名cd /opt/softwaremv sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz sqoop146#配置环境变量vim /etc/profile.d/myenv------------------------------export SQOOP_HO

2021-06-28 19:31:41 307 2

原创 hive常用函数（一）

hive常用函数一般分为下面几个部分：算数运算符：+，- ，*， /关系运算符：== , <>(不等于) , > , >= , < , <=逻辑运算符：and or not数学函数字符串函数集合函数日期函数条件函数侧视图聚合函数窗口函数over重句数学函数1、取余函数，只能支持正数，参数含义：n%m mod(n,m) select mod(3,5); +------+ | _c0 | +------+ | 3 |

2021-06-20 18:13:52 3540

原创 Linux虚拟机安装及网络信息配置

首先要安装虚拟键，惠普和戴尔的要用VMware-workstation-full-16.1.1-17801498，16版本的VM，15版本的会不兼容，导致系统不断重启，前置条件配置好后，开始创建新的虚拟机。1打开VM点击创建新的虚拟机2点击创建虚拟机后出现下图界面，要选择自定义安装，自己配置一些信息选中自定义后，点击下一步3在硬件兼容性中，选Workstations16.x其他信息默认，然后点击下一步4选中稍后安装操作系统，点击下一步5选用Linux，版本先适合自己电脑

2021-05-24 21:47:02 404

原创初识数据库---MySQL数据库

什么是数据库？可以从字面的意思简单理解，及时存放数据的仓库。数据分类：1、RDBMS:关系数据库2、NoSql：非关系数据库关系数据库介绍：存放有持久性的，完整的，有效的，结果性的数据；构成：Sever（服务器）和Client（客户端）其中服务器中有系统库和自定义库，系统库包含了规则，权限，角色，系统函数，MySQL等等自定义库：库>表/视图>列表对象：自定义函数，存储过程，触发器表优化：索引，表分区非关系数据库的优点是性能好其中：Redis 相当于一个大的Ha

2021-05-10 19:54:12 516

原创 ArrayList总结

前段时间学习了ArrayLsit，不仅学习了里面的源码，老师还带着我们简单的敲了一下源码，做了集合的工具包，虽然和JDK中的util相差甚远，但是也能用，而且功能也不差，下面我就来总结一下。ArrayList的底层是数组的结构，但是由于数组的劣势：1、插入和删除性能低下。2、容量是固定的，如果要存的东西不固定，会很难操作。3、存的数据类型必须一致。所以就有了ArrayList集合，弥补了数组的数组的缺点。但是底层却也是数组。首先我先介绍一下里面的常用方法和其作用：1、构造参数，有无参构造和有参构造两种

2021-05-04 23:52:02 308

原创 Java中数组输出和排序

1、生成6位不重复的两位随机数/生成6位不重复的两位随机数 //生成6个两位数 //不重复 //用数组去做 Random rand = new Random(); //声明数组变量，存储随机数 final int N = 6; int[] array = new int[N]; array[0] = 10+rand.nextInt(90); //实现循环

2021-03-30 20:18:47 985

原创二重循环：利用等差数列，输出图形

利用二重循环输出图形可以先观察图形的变化规律，从前两个图形可以看出，这是一个等差数数列，等差数列的公式为：y=id+x y=x-id;//注意我们使用的等差数列公式：y=i*d+x y=x-i*d;//下面输出第一个图形//注意第一个图形的规律，是等差为1的等差数列，一共有五行，//用第一行数值代入求出x 1=i*1+x => x=0,下面开始写代码//外循环控制行数，内循环控制列数，for(int i = 1; i <= 5; i++){ //下

2021-03-30 16:14:32 945

weixin_49180684的博客