自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Hive中一个reduce和多个reduce有哪些情形

在 Hive 中,Reduce 任务的数量直接影响查询性能和结果分布。

2025-07-16 17:51:25 352

原创 怎么找连续三天登录的人

在分析用户行为时,识别连续登录的用户是常见需求。:使用窗口函数计算每个用户的登录日期排序,通过日期差值判断连续性。:将表自连接 3 次,通过日期差值筛选连续登录记录。:自连接开销大,性能差,需确保每天仅有一条登录记录。:依赖窗口函数,需确保数据无缺失(如日期格式统一)。,在 Hive 或 Spark SQL 中性能最佳。:逐行标记是否连续,通过累加计算连续天数。函数直接获取后续日期,判断是否连续。(用户 1 连续登录了 3 天)。:逻辑简单,无需窗口函数支持。:仅需扫描一次表,性能最优。

2025-07-10 10:58:16 399

原创 怎样通过EXPLAIN和抽样分析快速定位数据倾斜点

在 Hive 中,通过EXPLAIN查看执行计划和抽样分析 Key 分布是优化查询性能的关键步骤。

2025-07-09 09:45:08 839

原创 hive有哪些数据倾斜场景,并举例

小表 Join 大表:用 MapJoin 避免 Shuffle;大表 Join/Group By:拆分倾斜 Key、加随机前缀分散负载;特殊场景(空值、类型不匹配):针对性处理(替换空值、统一类型)。实际优化中需结合具体数据分布(通过explain查看执行计划,或抽样分析 Key 分布)选择合适的方法。

2025-07-09 09:42:29 475

原创 100道sql练习题

先独立编写 SQL 语句,再对比提供的答案解析,重点关注多表连接逻辑、窗口函数应用和业务场景转化(如风险指标计算)。数据库用的mysql,附答案、建表语句和数据。

2025-06-05 12:09:36 833

原创 linux100题带答案

答案:free -h。答案:history。

2025-06-05 10:37:32 712

原创 HDFS页面端不能建文件夹,不能上传删除文件,权限不足

报错:Permission denied: user=sds, access=WRITE, inode="/":atguigu:supergroup:drwxr-xr-x。1、修改配置文件core-site.xml 中的用户登录配置信息,修改为使用atguigu(自己本地有权限的用户)登录。2、重启hadoop组件(修改配置文件都需要重启组件)修改完成后重启后就可以正常删除和新建上传文件。atguigu是本地登录的用户且有权限。本地没有sds这个用户。

2025-04-24 10:21:53 153

原创 安装centos7后内网能连接外网不能链接

现象: ping www.baidu.com 报connect: Network is unreachable。网关填写问题:重新检查配置文件,注意拼写,如果拼写正常可能是数字识别问题,使用粘贴方式输入。重启网络: systemctl restart network。外网链接正常 ping www.baidu.com。检查 ip route 未显示默认网关地址。ip route 已正常显示默认网关。

2025-04-23 11:40:07 129

原创 python 程序设计入门-练手-温度转换 第一天

【代码】python 程序设计入门-练手实例-温度转换 第一天。

2025-04-16 15:54:26 78

原创 机器学习,pallow图像处理库,0基础友好

img_flr = img_g.transpose(Image.Transpose.FLIP_LEFT_RIGHT) #镜像,对图像做作业翻转。img_region = img_b.crop((0,0,250,250)) #图片.corp((左上点坐标,右下点坐标))img_size=img_r.resize((100,100)) #缩减,不改变原图的基础上像素变成100*100。img_r,img_g,img_b = img.split() #彩色图片分离RGB三个颜色通道。

2023-12-03 02:36:39 397 2

机器学习波士顿数据集,boston-housing.npz 直接放到C:\Users\当前自己的用户名\.keras\

机器学习波士顿数据集,boston_housing.npz tensorflow.keras.datasets.boston_housing.load_data()报错 直接放到C:\Users\Administrator\.keras\ C:\Users\当前自己的用户名\.keras\

2023-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除