自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(181)
  • 收藏
  • 关注

转载 【转】箱线图

作者:海致BDP链接:https://www.zhihu.com/question/36172806/answer/308908220来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图...

2018-12-07 12:53:09 920

转载 【转】shell 使用指定的分割符来分割字符串

shell 如何用指定的分隔符来分割字符串让结果为一个字符串数组,类似 java 中的 split, 而 split 关键字已经留给文件分割了,故字符串就分割处理就不能在使用了,那如何来处理字符串串分割呢?方法有两种方法一#!/bin/bashstring="hello,shell,haha"  array=(${string//,/ })  for var in ${array[...

2018-12-04 17:41:08 905

原创 shell脚本:Syntax error: Bad for loop variable错误解决方法

ubuntu16.06输出循环数字:命令行中:for i in {1..5}; do echo $i; done#result12345但是将for i in {1..5}; do echo $i; done,写到shell脚本中执行时却输出,{1..5}另外,命令行:for ((i=1;i<=5;i++)) do echo $i; done#r...

2018-12-01 10:14:41 3520

原创 Precision、Recall、F-measure、ROC曲线、AUC理解

首先,在试图弄懂AUC和ROC曲线之前,一定,一定要彻底理解混淆矩阵的定义!!!混淆矩阵中有着Positive、Negative、True、False的概念,其意义如下:称预测类别为1的为Positive(阳性),预测类别为0的为Negative(阴性)。 预测正确的为True(真),预测错误的为False(伪)。对上述概念进行组合,就产生了如下的混淆矩阵:然后,由此引出Tru...

2018-11-25 11:03:15 850

转载 【转】基于Hadoop的数据仓库Hive 基础知识

基于Hadoop的数据仓库Hive 基础知识 - miao君的文章 - 知乎 https://zhuanlan.zhihu.com/p/25608332Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。...

2018-10-27 10:04:02 347

转载 hive执行报错:Both left and right aliases encountered in JOIN 's1'

原因:两个表join的时候,不支持两个表的字段 非相等 操作。可以把不相等条件拿到 where语句中。例如:right JOIN test.dim_month_date p2 on p1.month=p2.y...

2018-10-26 09:47:54 1225

原创 SQL在线练习

链接:SQL Teaching基本SQL命令练习

2018-10-25 23:44:38 5688

转载 【转】SQL ROW_NUMBER() OVER函数的基本用法

语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。 示例: xlh           row_num 170...

2018-10-25 21:44:24 519

转载 select语句完整语法及执行流程

select语句完整语法及执行流程select  目标表的列名或列表达式序列        from 基本表名和(或)视图序列        [where 行条件表达式]        [group by  列名序列]               [having  组条件表达式]        [order by 列名[asc | desc]]        [limi...

2018-10-24 22:58:54 3824

原创 hive导出查询结果到本地文件

hive -e "select * from test" >> res.csv或者:hive -f sql.hql >> res.csv其中文件sql.hql内容为查询语句 

2018-10-18 17:04:56 2886

原创 HQL FAILED: ParseException line 13:4 missing KW_END at ‘,’ near ‘‘

hive查询报错:FAILED: ParseException line 13:4 missing KW_END at ',' near '<EOF>'原因:case when then else end;少写了end 

2018-10-18 14:14:29 9910

转载 【转】关于滴滴智能调度的分析和思考

 AnthonyD 关注2017.01.15 23:55* 字数 3809 阅读 10743评论 1喜欢 47赞赏 3写这篇分析的背景是,工作上正在经历一个智能调度平台的搭建和设计,希望通过对于滴滴调度系统进行调研,来得出一些可借鉴的、优秀的设计方案。本质上来讲,一个好的调度系统,就是要解决资源最优利用的问题,这个在之前的文章做过简单的介绍,见《调度系统的数学定义》。  它山之石...

2018-10-16 23:28:59 1083

转载 linux cat命令

cat命令连接文件并打印到标准输出设备上,cat经常用来显示文件的内容,类似于下的type命令。注意:当文件较大时,文本在屏幕上迅速闪过(滚屏),用户往往看不清所显示的内容。因此,一般用more等命令分屏显示。为了控制滚屏,可以按Ctrl+S键,停止滚屏;按Ctrl+Q键可以恢复滚屏。按Ctrl+C(中断)键可以终止该命令的执行,并且返回Shell提示符状态。语法cat(选项)(参数...

2018-10-16 23:08:56 249

原创 linux >和>>的区别

linux中经常会用到将内容输出到某文件当中,只需要在执行命令后面加上>或者>>号即可进入操作。>:将一条命令执行结果(标准输出,或者错误输出,本来都要打印到屏幕上面的)重定向其它输出设备(文件,打开文件操作符,或打印机等等)> 重定向文件时,覆盖文件原有内容>> :追加内容实例:$ echo "hello,world" > t...

2018-10-16 23:05:08 6804

原创 wc awk命令组合

log.txt文本内容如下:2 this is a test3 Are you like awkThis's a test10 There are orange,apple,mongo命令行方式调用awkawk [-F field-separator] 'commands' input-file(s)其中,commands 是真正awk命令,[-F域分隔符]是可选的。 ...

2018-10-16 14:55:54 1423

转载 java 8种基本数据类型的默认值

8种基本数据类型(primitive type)在只做了声明,而未被初始化的时候,他们的默认值 8种基本数据类型分别是:byte,short,int,long,(四种整型)                       char()                       float,double(两种浮点型)                       boolean(一种用于...

2018-10-16 14:12:28 4955 2

转载 Hadoop Streaming

Hadoop StreamingHadoop streaming是Hadoop的一个工具, 它帮助用户创建和运行一类特殊的map/reduce作业, 这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如:$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ ...

2018-10-16 11:27:00 211

转载 MySQL:比较两个数据表不同部分

三种方法:在t2表而不在t1表的数据1、SELECT * FROM t2 WHERE id NOT IN (SELECT id FROM t1);2、SELECT * FROM t2 WHERE NOT EXISTS(SELECT * FROM t1 WHERE t1.id=t2.id);3、SELECT t2.* FROM t2 LEFT JOIN t1 ON t2.id=t1....

2018-10-16 11:09:54 6606

原创 hadoop ls命令

ls使用方法:hadoop fs -ls <args>如果是文件,则按照如下格式返回文件信息:文件名 <副本数> 文件大小 修改日期 修改时间 权限 用户ID 组ID 如果是目录,则返回它直接子文件的一个列表,就像在Unix中一样。目录返回列表的信息如下:目录名 <dir> 修改日期 修改时间 权限 用户ID 组ID 示例:hadoop fs ...

2018-10-16 10:45:43 2779

转载 【转】mysql查询根据部分字段去重

mysql有个关键字distinct用来去重的,但是使用时只能放在查询字段的最前边如: SELECT DISTINCT user_id,age FROM t_user;若不是放在最前边,如: SELECT user_id, DISTINCT age FROM t_user; 是会报错的。那么如果我们只想根据age字段来去重,并且要查出user_id,就不能直接这样执行。需要另找方法。...

2018-10-16 10:36:04 937

转载 mysql 某个字段值重复的数据及重复次数

查询user表中,user_name字段值重复的数据及重复次数select user_name,count(*) as count from user group by user_name having count>1; 

2018-10-16 10:18:17 8066

转载 【转】sql之left join、right join、inner join的区别

left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行举例如下: --------------------------------------------表A记录如下:aID     aNum1     a20...

2018-10-15 23:23:37 145

转载 【转】查询在一张表不在另外一张表的记录

参考文献http://hi.baidu.com/zdfgng/blog/item/dd5f88359a1cd0260b55a9ce.html题目假如要查询在a表中存在,但是在b表中不存在的记录,应该如何查询。为了便于说明,我们假设a表和b表都只有一个字段id,a表中的记录为{1,2,3,4,5},b表中的记录为{2,4},那么我们需要通过一个sql查询得到{1,3,5}这样的结果集。...

2018-10-15 23:20:10 1048

转载 【转】xargs与管道 | 区别

实例1:$ echo '--help' | cat --help//该命令输出的是echo的内容,也就是说将echo的内容当作cat处理的文件内容了,实际上就是echo命令的输出通过管道定向到cat的输入了。然后cat从其标准输入中读取待处理的文本内容。这等价于在test.txt文件中有一行字符 '--help' 然后运行 cat test.txt 的效果。实例2:$ ...

2018-10-15 23:10:06 151

转载 linux下解压命令、压缩命令大全

linux常用的解压和压缩命令如下:1、.tar 解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)2、.gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName3、.tar.gz 和 .tgz​​​...

2018-10-15 21:54:49 321

转载 linux readlink命令

readlink是linux系统中一个常用工具,主要用来找出符号链接所指向的位置.$ readlink --help //或者man readlinkUsage: readlink [OPTION]... FILEPrint value of a symbolic link or canonical file name //输出符号链接值或者权威文件名 -f, --canonic...

2018-10-15 21:41:10 16546

原创 提升hive效率的最佳实践

表相关存储格式:避免使用text,JSON,有可能的haul也应避免sequence文件;理想的格式是RCFile (Row Columnar File)压缩:block compression 比 value compression更高效,最终结果及中间结果都应压缩,set hive.exec.compress.output=true;set hive.exec.comp...

2018-10-15 19:52:35 787

转载 Hive 时间日期处理总结

获取当前时间截:select unix_timestamp();//结果1539595903获取当前时间1:select current_timestamp();//结果2018-10-15 17:34:09.721获取当前时间2:select from_unixtime(unix_timestamp());//结果2018-10-15 17:36:13...

2018-10-15 17:47:41 477

原创 python ValueError: invalid literal for int() with base 10: ''

The following are totally acceptable in python:passing a string representation of an integer into int passing a string representation of a float into float passing a string representation of an in...

2018-10-15 17:26:20 1503

转载 【转】【HDFS】hive任务报HDFS异常:last block does not have enough number of replicas

HIVE运行查询脚本时报错,last block does not have enough number of replicas: 1 2018-10-15 2018-07-17 2 2018-10-15 10:00:01 3 Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; s...

2018-10-15 11:48:39 9463 3

转载 执行sql时出现错误 extraneous input ';' expecting EOF near '<EOF>'

原文问题:调用jdbc执行hive sql时出现错误Error while compiling statement: FAILED: ParseException line 5:22 extraneous input ';' expecting EOF near '&lt;EOF&gt;'错误原因是因为sql语句中多了分号 执行脚本时需要在sql后面添加分号但是调用jdbc...

2018-10-15 11:04:15 50041 3

原创 python二维列表排序

使用 lambda 关键词辅助对二维列表进行排序,假设有一个学生列表存储了学号,姓名,年龄信息:students = [[3,'Jack',12],[2,'Rose',13],[1,'Tom',10],[5,'Sam',12],[4,'Joy',8]]#按学号顺序排序:sorted(students,key=(lambda x:x[0]))#结果[[1, 'Tom', 10], [2...

2018-10-12 18:46:11 5271

转载 【转】使用chrome插件Page Monitor监控网页内容变化

参考:Chrome如何监控网页内容变化?Page Monitor是一款监控页面变化的扩展,如果你监控某网页后,如果该页面有变化会自动通过Chrome右上角的扩展图标提醒你,对于监控产品降价信息非常有用,或者也可以监控一些博客的更新。...

2018-10-12 16:16:44 6213

原创 HQL子查询别名问题

HQL子查询别名问题     HQL的书写,select * from (select * from table_name) ;     执行此HQL,应该会报错:FAILED: ParseException line 3:52 cannot recognize input near '&lt;EOF&gt;' '&lt;EOF&gt;' '&lt;EOF&gt;' in subquery...

2018-10-12 15:18:00 1752

原创 python 计算列表中None出现的次数

code:lst = ['hey','what',0,False,None,14]print(sum(x is not None for x in lst))#output5参考:how-to-count-the-number-of-occurrences-of-none-in-a-list

2018-09-28 16:12:35 2981

原创 小米5安装googleplay框架

参考:小米5 Google框架安装及使用方法(免root)百度云下载小米5谷歌框架安装包: :http://pan.baidu.com/s/1qYAdtIc备用:http://m.downcc.com/d/186717

2018-09-28 16:05:55 11405

原创 idea恢复误删文件

问题:idea中误删除文件后想要恢复解决:右键单击项目名或者或者子模块名,然后选择Local History&gt;Show History&gt;选择要恢复的文件&gt;右键Revert,此文件即恢复到删除前位置。另外:idae编辑器中撤销删除或修改,可使用ctrl+z。...

2018-09-28 15:39:22 1079

原创 python redis读写报错:Broken Pipe Error Redis

问题:将较大文件利用python 的redis包set,get时报错:BrokenPipeError: [Errno 32] Broken piperedis.exceptions.ConnectionError: Error 104 while writing to socket. Connection reset by peer.原因:set或get数据时,数据过大,则会...

2018-09-28 15:32:53 5999

原创 vi/vim中设置自动缩进时,粘贴时行首出现多余缩进和空格

打开vi/vim查看设置:vi ~/.vimrc 79 set aw 80 set smartindent 81 set autoindent //自动缩进 82 set cindent 83 syntax on 84 "colors desert 85 "set nu 86 set fencs=utf-8,chinese,ucs-bom,gb18030,gbk,gb231...

2018-09-28 15:13:22 1534

原创 vi跳转到指定变量定义处快捷键

gd : 跳转到局部变量的定义处参考:VI快捷键

2018-09-28 14:53:09 1429

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除