- 博客(115)
- 收藏
- 关注

转载 Hive函数大全(转)+自己工作上的例子
转自:https://blog.csdn.net/yanxilou/article/details/82661498 写的挺全的,mark!一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive...
2019-02-12 17:02:10
696

原创 Linux上批量查找文件里面带的关键字(grep 关键字的用法)
grep功能说明:查找文件里符合条件的字符串(同时能匹配正则表达式)语法:grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]grep -参数 ...
2018-12-19 15:48:27
52357
4

原创 hive常用命令和外部写建表语句执行报错的解决方法
如果建表语句中有类型关键字,在建表是会报NoViableAltException错误,需要在关键字上加``(这个是ESC底下那个键)本人常用的hive命令: 1.不用启动hive就能运行建表语句hive -f xx.sql;注意:建表语句如果是外部编译器编写的话要更改编码格式为要不会爆这个错误 2.添加列alter table dev_odb.cac_a...
2018-09-03 16:00:32
2294
原创 spark-sql在yarn环境启动时报错虚拟内存溢出
beyond the 'VIRTUAL' memory limit. Current usage: 345.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container.
2025-06-23 15:32:45
237
原创 Application with id application_xxx doesn‘t exist in RM解决方法
Application with id application_xxx doesn't exist in RM
2025-06-12 11:43:06
256
原创 Flinkcdc读取mysqlbinlog时报错Cannot read the binlog filename and position via ‘SHOW MASTER STATUS‘.
Cannot read the binlog filename and position via 'SHOW MASTER STATUS'. Make sure your server is correctly configured
2025-06-10 12:07:37
557
原创 hadoop集群datanode启动显示init failed,不能解析hostname
ps:在没修改网卡信息之前网上搜到还有一种方法,修改hdfs-site.xml,新增一条配置dfs.namenode.datanode.registration.ip-hostname-check,不进行地址检查。把这个值修改成none或者是static都可以,查看网卡信息只显示一条了,之后再把data和logs删掉,重启一下集群就可以了。之后倒是能启动集群,只不过webUi上datanode等的地址变成了动态分布的ip地址,如图。文章浏览阅读255次。三个datanode集群,有一个总是起不起来。
2025-06-05 14:17:07
695
原创 运行shell脚本时报错/bin/bash^M: 解释器错误: 没有那个文件或目录
运行shell脚本时报错/bin/bash^M: 解释器错误: 没有那个文件或目录
2025-06-03 11:08:36
396
原创 启动metastore时报错MetaException(message:Version information not found in metastore
启动metastore时报错MetaException(message:Version information not found in metastore
2025-06-02 20:53:43
338
原创 vertica优化
数据或中间结果按照关联等字段重新分布到每个节点,如果需要得到数据全集,则需要合并每个节点上的记录。找到之前年度汇报的ppt,把优化方法分享一下,也做一个留存。会在关联操作前将参加关联的另一个表表进行排序,然后再进行。按照关联字段预先排好序,那么优化器会选择更有效率的。数据量比较大的时候,要是创建临时表的话需要使用。如果只有一张表是按照关联字段预先排序,那么。数据量比较小的时候,创建临时表的话使用。来创建临时表,实体表的话需要重新设计。操作中额外的排序及数据传输操作,提升。的定义以及查询内容,选择最合适的。
2025-05-26 19:19:54
356
原创 数据仓库工具箱第三版——读书笔记(未完)
3.4.1、可计算获得的事实:例如收入字段,收入=原价格-优惠券优惠的价格。变化的度量应该被存储在事实表中。业务需要按照非标准的日期属性对日期进行分片,需要建立一个详尽的日期维度表,而不是由应用代码解决,原子事务事实表的粒度可在事务环境下被简洁地描述,例如,每个事务一行或 个事务线一行。设计计算的数据应该放入事实表中,涉及约束、分组和标记的数据应该放入维度表中。详细的粒度说明确定了事实表的束腰维度,可以将更多维度增加到事实表上,由于这些事实表记录的是一个事务事件,所以它们通常是比较稀疏的。
2025-05-22 16:17:44
706
原创 hiveserver2与beeline进行远程连接hive配置及遇到的问题
hiveserver2与beeline进行远程连接hive配置及遇到的问题
2025-05-13 00:15:31
487
原创 hive在配置文件中添加了hive.metastore.uris之后进入hive输入命令报错
hive在配置文件中添加了hive.metastore.uris之后进入hive输入命令报错
2025-05-12 18:06:34
420
原创 mysql连接时候报错:error while loading shared libraries: libncurses.so.5: cannot open shared object file
mysql在linux命令进入时报错
2025-04-27 19:01:15
916
原创 在shell脚本中调用另一个脚本的三种不同方法(exec, source,fork)的区别
上一个简单的例子,创建一个shell脚本test,sha="1"echo ${a}1、source的用法和.的用法相同在一个shell脚本中运行source xx.sh,xx.sh相当于执行完xx.sh再执行父脚本,同时xx.sh中的变量父脚本也能拿来使用。就像是java创建好对象,属性就能使用了很多脚本都有这种写法,下面是flink中jobmanager.sh的写法,需要的就是执行完config,sh中的变量2、exec的用法运行完test.sh自动退出,父脚本不再
2022-02-14 16:42:42
810
原创 java判断文件或文件夹是否存在
目录1、判断文件是否存在2、判断文件夹是否存在2.1、file.mkdirs()创建出的文件夹2.2、 file.getParentFile().mkdirs();1、判断文件是否存在import java.io.File;public class sss { public static void main(String[] args) throws Exception { File file = new File("E:\\新建文件夹\\2021111
2021-11-10 17:50:08
10210
原创 SqlServer常用命令与写法
1、备份表sqlserver不支持create table 表名 as select 的写法select * into 备份的表名 from 原表名;2、创建临时表2.1 系统临时表(断开连接会自动删除) create table #tableName(column1 dataType,...)2.2 创建系统临时表(使用drop table ##tableName 删除) create table ##tableName(column1 dataType,...)可以使用上
2021-10-19 16:17:11
4009
原创 Flink基本概念(一)
基于有状态计算(好处:不需要将原始数据重新从外部存储中拿出来)周期性的通过分布式快照技术checkpoints实现状态的持久化维护优势:1、同时支持高吞吐、低延迟、高性能2、支持事件时间(event time)概念:即使乱序时间到达flink也能根据事件产生的时间来处理3、支持有状态计算:把中间结果数据保存在内存或者文件系统中,不用再次从头计算4、支持高度灵活的窗口操作:通过窗口的方式对流数据进行一定范围的聚合计算。flink对窗口划分为基于time、count、sessio..
2021-07-30 18:10:36
455
1
原创 Oracle使用sqlplus后台执行遇到的问题SP2-0103
${sqls}=sql语句sqlplus -S oracle连接 <<END -- -S代表静默执行 set echo off feedback off heading off underline off; ${sqls}或者@sql文件名 quit;END运行sql文件的形式的时候报错SP2-0103因为sql中写了注释 eg:/*注释内容*/我把注释改成了--注释内容,并且每回运行之前处理一下每行开头的字符,使用sed命令,sed -i 's/^\s*/...
2021-05-29 23:17:34
1028
原创 sed命令中删除特定的行,在某行添加,与替换某行的数据
写在开头linux中vi编辑器中跳转到相应的行数是:set nu 之后再:行号。cat时显示行号cat -n test.txtnl 文件名|more(可以在more的时候显示文件的行号)样本数据test.txt123一、删除1.1、删除文件第二行数据sed -i '2d' test.txt1.2、删除文件第二、三行的数据sed -i '2,3d' test.txt1.3、删除文件第二行之后的数据sed -i '2,$d' test.txt
2021-05-17 20:14:33
3289
原创 shell脚本——文件里的内容与变量中内容大小写替换
一、把文件里的内容大小写转换sed 's/[a-z]/\u&/g' 文件名# 转大写sed 's/[A-Z]/\l&/g' 文件名# 转小写二、把变量中的内容大小写转换1、Bash4.0之后可以使用简单的方法,在linux中输入sh就能看见bash的版本${变量名^}:把变量中的第一个字符转换成大写${变量名^^}:把变量中的所有字符转换成大写sh-4.1# a='aaa'sh-4.1# echo ${a^}Aaash-4.1# echo ${a^^}..
2020-08-17 23:58:34
2066
原创 Linux对文件进行处理,sed,awk
1、Linux cut命令分隔文件的某列的值Cut -f1,2(列编号) -d ' '(列分割符) 文件名2、获取当前文件的日期ls -l文件路径|awk '{print $6" "$7" "$8}'linux 如何显示一个文件的某几行(中间几行)【一】从第3000行开始,显示1000行。即显示3000~3999行cat filename | tail -n +3000 ...
2020-04-29 11:30:04
396
原创 windows中host的位置
记下来防止自己忘C:\Windows\System32\drivers\etc集群好久没用了,把里面的#号去掉,IP地址和机器名 eg:192.168.128.150 node150作用就是不用直接输入ip直接输入我们给他起的机器名就可以...
2020-02-14 15:38:22
2396
原创 vertica基本常用sql
Vertica把csv格式的数据导入Verticavsql -h ip -U 用户名 -w ‘密码’-c "copy 表名from local 'xx.csv' delimiter E'分隔符(csv为逗号 ^A 为/001)' ";把vertica数据导出vsql -h ip -U 用户名-w ‘密码’ -o 导出文件名 -F '列分隔符' -R...
2020-02-11 11:09:08
3256
原创 CentOS的yum不好用手动下载rpm包安装vim插件(附上Error: Cannot find a valid baseurl for repo: base)解决方法
题外话:在我把集群的一台服务器通过手动安装vimRPM包之后,突然发现了我把网卡的网关拼写错了,GATEWAY写成GETEWAY,竟然好用了。。。这个集群一年了,一直没法ping通外网,说来也惭愧,大学时计算机网络缺课了一个月,很次,dns和网关都搞不懂,后续会补回来。。。做学问不是做一次就搞定了,而是不断复习精进的过程。进入正题:一、手动安装vim环境:CentOS6.1ping不通外网...
2019-08-26 16:28:08
1391
转载 协同过滤算法
转载自:https://www.cnblogs.com/luchen927/archive/2012/02/01/2325360.html在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filteri...
2019-07-25 10:08:21
374
翻译 机器学习——读书笔记(未完)
机器学习——周志华著机器学习致力于研究如何通过计算手段,利用经验来改善系统的计算性能计算机根据数据产生模型,在未来面对新的情况是,模型会给我们提供相应的判断模型泛指从数据中学到的结果,若我们欲预测的是离散值,例如好瓜坏瓜,此类学习任务称为分类若预测的是连续值,例如西瓜成熟度0.95、0.37,称为回归,对只涉及两个类别的二分类任务,其中一个类称为正类,一个为反类;涉及多个类别是...
2019-07-19 09:20:00
283
转载 inner join,left join ,right join ,full join
转载自https://www.cnblogs.com/rickons/p/9663039.htmlINNER JOIN 关键字在表中存在至少一个匹配时返回行。LEFT JOIN 关键字从左表(table1)返回所有的行,即使右表(table2)中没有匹配。如果右表中没有匹配,则结果为 NULL。RIGHT JOIN 关键字从右表(table2)返回所有的行,即使左表(table...
2019-07-18 08:56:19
163
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人