- 博客(52)
- 资源 (14)
- 收藏
- 关注
原创 clickhouse设置远程连接
vi /etc/clickhouse-server/config.xml把注释掉的<listen_host>::</listen_host>取消注释,然后重启服务:此时9000端口和namenode冲突 修改tcp端口gray注意改配置文件内tcp默认端口为9000,可能会与namenode端口发生冲突,修改查看并杀掉进程ps -ef | grep clickhouse-server启动服务nohup sudo -u clickhouse clickh.
2021-12-24 18:04:47
2227
原创 使用DBeaver连接Hive数据仓库
Hive的数据库客户端界面工具DBeaver进行操作hive。前提:1.hadoop分布式或者伪分布已经安装好2.hive已经安装好3.hive元数据存放在MySQL中4.DBeaver客户端工具准备:1.启动Hadoop:sbin/start-dfs.sh2.启动MySQL,本身就是开机自启动service mysql start3.启动Hive Metastore服务hive --service metastore 或者 nohup hive --servic..
2021-12-24 15:03:01
2728
原创 关于dolphinscheduler2.0.0执行shell任务报租户不存在错误,以及选择正确租户后,租户在程序的执行中无读写权限问题解决
关于dolphinscheduler2.0.0执行shell任务报租户不存在错误,以及选择正确租户后,租户在程序的执行中无读写权限问题解决首先针对建立租户的时候,租户名称一定是服务器已经有的用户,现阶段建立服务器不存在的用户时候执行任务会报租户不存在,还没有深入研究源码。其次是执行shell代码,出现Permission denied错误,出现这个问题的原因是普通租户没有执行dolphinscheduler用户的文件的权限dolphinscheduler用户创建如下执行脚本/tmp/dol.
2021-12-01 11:02:17
2672
转载 azkaban安装部署
Azkaban介绍+安装部署+实战案例Azkaban介绍什么是azkaban?1、工作流的作业调度系统2、通过k、v指令写法描述工作流节点3、可以通过web界面去管理工作流Azkaban安装部署2.3.1 准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器azkaban-executor-server-2.5.0.tar.gzMySQL目前azkaban只支持mysql,需安装my...
2021-04-22 10:40:10
335
原创 oracle sql Developer连接hive [HiveJDBCDriver](500151) Error setting/closing session
oracle sql Developer连接hive报错如下:[Cloudera][HiveJDBCDriver](500151) Error setting/closing session: [Cloudera][HiveJDBCDriver](500594) Error calling OpenSession API call. Error code from server: 0. Error message from server:经过不断努力终于确认问题:原因:hiveserver2增.
2021-04-21 16:24:20
1209
转载 索引列失效场景
虽然你这列上建了索引,查询条件也是索引列,但最终执行计划没有走它的索引。下面是引起这种问题的几个关键点。列与列对比某个表中,有两列(id和c_id)都建了单独索引,下面这种查询条件不会走索引select*fromtestwhereid=c_id;这种情况会被认为还不如走全表扫描。存在NULL值条件我们在设计数据库表时,应该尽力避免NULL值出现,如果非要不可避免的要出现NULL值,也要给一个DEFAULT值,数值型可以给0、-1之类的, 字符串有时候给空串有问题,就给一...
2021-04-09 18:01:21
107
原创 phoenix jdbc连接 upsert select异常解决
场景:通过jdbc连接到phoenix执行 upsert into table select 操作报一下异常:phoenix upsert ERROR:MutationState size is bigger than maximum allowed number of bytes网上的解决方法:https://blog.csdn.net/u012551524/article/details/81773851试了一下还是解决不了问题,可能是问题出现的一种原因,后来仔细看了一下以下官网说明如下
2021-03-19 14:25:50
726
原创 idea sparksql操作hive遇到的坑CoarseGrainedSchedulerBackend$DriverEndpoint: Asked to remove non-existent ex
sparksql操作hive遇到的坑第一次写sparksql项目想用sparksql操作hive查询数据就找到了百度代码做参考【idea工具开发】代码如下:import org.apache.spark.sql.SparkSessionobject aaa { def main(args: Array[String]): Unit = { //设置HADOOP_USER_NAME,否则会有权限问题 System.setProperty("HADOOP_USER_NAME",...
2021-02-26 16:45:30
847
1
原创 pycharm无法识别已安装模块问题解决
注:其他无法识别Python已安装的模块都可以用此方法解决!Python已经安装aip模块,但是Pycharm无法识别导入的aip模块,解决办法如下:Pycharm的菜单 File | Settings | Settings窗口 | Project:XXXX | Project Interpreter项 | 窗口右侧 齿轮按钮点击 | Show All... | 将画红圈得按钮点击一下将已安装的Python路径下的 Lib/site-packages 这个路径添加到“python I..
2021-02-09 17:54:13
2348
原创 scala中sortBy与sortWith区别
(1)Scala中sortBy是以方法的形式存在的,并且是作用在Array或List集合排序上,并且这个sortBy默认只能升序,除非实现隐式转换或调用reverse方法才能实现降序。(2)sortWith可以通过制定规则进行升降序排序。 val mapvalues2: RDD[(String, List[(String, Int)])] = groupbykey.mapValues(x=>x.toList.sortWith(_._2>_._2).take(3)) ...
2020-06-29 10:34:30
1574
转载 关于python的元组类型(tuple)的特点
python 元组--元组到底可不可以被修改2.元组--tuple ()/(1,)2.1创建和访问一个元组如果创建一个空元组,直接使用小括号即可;如果要创建的元组中只有一个元素,要在它的后面加上一个逗号‘,’。 >>> temp = () >>> type(temp) <class 'tuple'> ...
2019-08-29 16:02:43
1136
原创 共享单车项目、mongodb集群
需求分析摩拜单车的重点是物联网大数据 车投放在什么地方,要根据数据来进行支撑,根据历史数据(骑行记录) 通过共享单车的骑行数据可以分析出个性城市成都休闲之都:骑行的地方多为娱乐场所上海敬业之城:共享单车作为通勤的辅助手段北京早起之城:早高峰的出现早于其他城市深圳不夜之城:夜晚骑行度高于其他城市 年龄段骑行分析 同时共享单车抢占黑摩的的市场 深夜城市骑行热力图分析 骑行...
2019-02-16 21:06:21
1312
原创 数据存储方式总结
关系型数据库:Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL非关系型数据库:NoSql、Cloudant、MongoDb、redis、HBase 还有我们学过的:hdfs、hive数据仓库 两种数据库之间的区别: 关系型数据库 关系型数据库的特性1、关系型数据库,是指采用了关系模型来组...
2019-01-10 15:33:12
2450
原创 SparkStreaming讲解与使用
一、SparkStreaming概述 Spark内置对象: sparkconf: SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 SparkContext: **SparkContext为Spark的主要入口点 ,SparkContext用于连接Spark集群、创建RDD、累加器(ac...
2019-01-05 16:11:05
568
原创 java线程的交替执行与谦让执行
1.两个线程的交替执行 package myThread;public class alternateThread { Object o=new Object(); Boolean f=true; class Thread1 extends Thread{ @Override public void run() { ...
2019-01-02 16:55:38
540
原创 DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决
DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决将数据存成数据集的方式是实现数据各种操作非常有效的一种方式。也能够迅速实现数据的导入与导出。Spark DataFrame提供了registerTempTable这样的接口,可以将数据对象存成临时表,便于后续的各种查询操作等。如select, join等。以前都是直接从数据中读...
2018-12-31 04:11:57
1591
转载 centos6.8修改IP为静态static后开机IP地址还会变的解决办法
centos6.5修改IP为静态static后开机IP地址还会变的解决办法2018年01月08日 13:16:22 smilecattobelucky 阅读数:1238 版权声明:本文为博主原创文章,转载请注明出处. https://blog.csdn.net/springyh/article/details/79001714环境:vmwareworksation12.0,centos...
2018-12-30 19:14:17
880
原创 elasticSearch的安装与使用
__________________________________________________________________________上课流程: 学生知识点分享 上堂课知识点回顾(采取默写的形式) 上堂课作业(项目)讲授 2018-12-24-【车流量监控项目】\5_作业\①本堂课\12-1_9班项目完成情况.xlsx ...
2018-12-27 20:45:44
622
转载 Hadoop元数据存储、加载、恢复
Hadoop元数据存储、加载、恢复1. 元数据加载 为了保证交互速度,HDFS文件系统的metadata是被load到namenode机器的内存中的。并会将内存中的这些数据保存到磁盘进行持久化存储,但对块的位置信息不进行持久化存储,在DataNode向namenode进行注册时动态加载。当NameNode启动时,它从硬盘中读取Editlog和FsImage。将所有Editlog中的事...
2018-12-22 23:40:24
347
原创 radis数据库的简单的使用
常用命令就DB来说,Redis成绩已经很惊人了,且不说memcachedb和tokyocabinet之流,就说原版的memcached,速度似乎也只能达到这个级别。Redis根本是使用内存存储,持久化的关键是这三条指令:SAVE BGSAVE LASTSAVE …常见可执行文件:redis-benchmark Redis性能测试工具redis-check-aof 检查aof日志工...
2018-12-22 10:13:51
509
原创 redis的安装
安装:由于redis是c语言写的,所以需要先安装c的支持,然后编译安装[root@hadoop01 ~]# yum -y install cpp binutils glibc glibc-kernheaders glibc-common glibc-devel gcc make gcc-c++ libstdc++-devel tcl[root@hadoop01 ~]#...
2018-12-21 21:32:59
126
原创 关于hive 创建新表,两个表join 两个表中都有相同字段的处理
此时select*fromAleft joinBonA.paper_id=B.paper_id会报错:FAILED: SemanticException [Error 10036]: Duplicate column name: paper_id解决:selectA.paper_id as paper_id1B.paper_id as pap...
2018-12-19 17:08:11
6918
2
原创 关于hive的分段统计的解析例如求18-24、25-30年龄段的计数的统计
解决办法就是将比如是19、20、21、22、23岁的数据加一个分段表及,比如说将18-24岁的都标记为“18_24”,将25-30岁的都标记为“25_30”,这样就很好解决问题了加条件语句为case when age>=0 and age<=18 then "0_18"when age>=19 and age<=24 then "19_24"when age...
2018-12-19 14:20:02
7466
原创 sqoop的使用
mysql数据导入hive(创建表同时导入指定数据库)bin/sqoop import \--connect jdbc:mysql://had01:3306/studentexam \--username root \--password root \--table category \--num-mappers 1 \--hive-import \--hive-database...
2018-12-19 13:56:30
124
原创 azkabin实现每天向hive分区表中加载数据——每天自动生成一个分区
第一步:创建分区表create database hive_autoload;create table hive_autoload.student2(uid string,gender string,fuid string)partitioned by (dt string)row format delimited fields terminated by "\t";第二步创...
2018-12-18 20:45:13
745
原创 azkabin的安装与调试
Git上下载源码:地址:https://github.com/azkaban/azkaban 解压源码到/home:unzip /home/azkaban-master.zip -d /home/ 编译源码: 安装:在安装咯hadoop、hive、sqoop等的机子上安装,好测试是否okay。先安装azkban web server:解压azkaban...
2018-12-17 16:12:35
373
原创 group by 与partition by 的效果展示,希望对大家有帮助
student.uid student.xi student.fuid1 1 11 1 32 1 102 2 111 1 41 2 51 2 62 1 72 1...
2018-12-17 09:32:47
670
1
原创 微博粉丝互粉列表统计
微博粉丝互粉统计mapper阶段 import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class microMapper extends M...
2018-12-13 20:37:23
711
原创 电信客服分析实现思路
电信项目:一、idea项目构建1、安装jdk并配置环境变量 2、安装maven,解压离线仓库,并设置settings conf目录下的setttings.xml文件复制到离线仓库的m2目录下,并修改mirror标签以及离线仓库路径。 设置idea工具的maven选项,涉及到4个地方:work offline,以及3个maven设置吧。注意留意:override选项...
2018-12-12 20:05:35
2384
原创 hadoop——hive视频观看热度,Top N案例(youtube)
数据准备user.txt0.txt字段以及字段名解析 user表字段 备注 字段类型uploader 上传者用户名 stringvideos 上传视频数 intfriends 朋友数量 int 视频表:字段 备注 详细描述video id 视频唯一 id 11 位字符串uploader 视频上传者 上传视频的用户名 Stringage 视频...
2018-12-11 18:02:22
1763
原创 使用二分查找法,查找ip所在的范围对应的code(语言为java\scala\python) java语言来实现
使用二分法实现查找ip所在的范围,并返回对应的idstart_ip end_ip code0.0.0.0 1.0.0.255 10000000001.0.1.0 1.0.3.255 11563501001.0.4.0 1.0.7.255 10360000001.0.8.0 1.0.15.255 1156440100java程序实现行数据实体类package IpRa...
2018-12-11 16:48:25
448
原创 关于hbase-site.xml中配置文件进行改动,删除某个属性后出现的错误hbase启动不了
操作分三步:1.进入zkCli.sh------ls /-------rmr hbase2.删除hbase.tmp.dir属性对应的的路径中的文件3.删除hdfs上对应的hbase所有元数据4.删除hbase logs中文件5.重新启动集群解决问题 ...
2018-11-29 15:59:29
723
原创 关于本人hbase整合sqoop和hive框架的遇到的那些坑
关于本人hbase整合sqoop和hive框架的遇到的那些坑 hbase: hbase-1.3.1-bin.tar.gzhive:apache-hive-1.2.2-bin.tar.gz要实现的功能:实现创建hive表同时关联到hbase在logs日志查看出现异常信息执行语句: CREATE TABLE hive_hbase_emp_table( key in...
2018-11-26 20:16:18
989
原创 SparkStreaming概述
一、SparkStreaming概述 Spark内置对象: sparkconf: SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 SparkContext: **SparkContext为Spark的主要入口点 ,SparkContext用于连接Spark集群、创建RDD、累加器(...
2018-11-19 13:52:51
276
转载 Hive数据分析实战演练
Hive数据分析实战演练文章来源:企鹅号 - 程序猿的修身养性1、准备工作Hive的底层是基于MapReduce分布式计算和HDFS分布式存储,因此,在使用Hive进行数据操作前,需要先启动Hadoop。如果事先已经搭建好了伪分布式环境的Hadoop,运行命令: start-all.sh,等待Hadoop启动完成即可。使用Hive进行数据分析操作,必然需要安装和配置Hive数...
2018-11-19 11:06:43
863
原创 Hadoop选举以及副本策略
17.Hadoop选举以及副本策略默认是采用投票数大于半数则胜出的逻辑。 选举流程简述 目前有5台服务器,每台服务器均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选择举过程如下: 服务器1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所以它收不到反馈信息,服务器1的状态一直属于Looking。 服务器2启动,给自己投票,同时与之...
2018-11-17 15:58:32
1167
原创 mapReduce共同好友案例(hadoop)
4.mapReduce共同好友案例思路:A: B,CB:A,DC:A,DD:B,C第一步B A -----B是A的朋友C AA BD BA CD CB DC D A: B,C ----A是BC的朋友B:A,DC:A,DD:B,C第二步B:C A ----BC的共同好友AA:D BA:D CB:...
2018-11-17 11:15:32
384
原创 eclipse远程连接hadoop2-5.0运行程序报错org.apache.hadoop.io.nativeio.NativeIO$Windows
eclipse远程连接hadoop2-5.0运行程序报错nativeio:Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z解决方法1设置环境变量 HADOOP_HOM...
2018-11-17 10:38:31
370
原创 Kafka+采集用户信息行为+flume整合(鼠标停留时间)
Kafka+采集用户信息行为+flume(鼠标停留时间)一、Kafka概述与消息系统类似,是消息中间件的一种。能够订阅和发布流式数据,能够以容错的方式存储流式数据,当数据产生时就能够处理生产者:数据产生者 消费者:数据使用者 中间件:进行数据缓冲 采集用户信息行为: 用户信息采集:页面上两个按钮、三个模块,当点击按钮的时候会显示点击那个按钮的日志,当...
2018-11-15 23:17:49
876
原创 Flum、Yum、Telnet、光盘挂载装yum(FLUME日志采集)
Flum、Yum、Telnet、光盘挂载装yum 附加:Flum的使用 数据处理流程 数据源-----存储-----计算------结果展示 数据倒入场景:(数据采集webServer---DataServer过程)一次性倒入 数据更新频次低(一天、一周) 实时性导入(毫秒级别) 关于验证码的使用,有第三方接口比如用户点击获取验证码、第三方接口...
2018-11-14 23:20:55
262
hadoop基础知识
2018-11-17
hive微博运动项目
2018-12-18
ljq01azakaban2.5.0.zip
2021-02-24
redis数据库的练习案例API
2018-12-27
SparkStreaming
2018-11-21
Spark学习源码
2019-01-05
SparkStreaming练习源码
2019-01-05
GitHub、git的使用(全)
2018-12-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人