- 博客(10)
- 收藏
- 关注
原创 怎么找连续三天登录的人
在分析用户行为时,识别连续登录的用户是常见需求。:使用窗口函数计算每个用户的登录日期排序,通过日期差值判断连续性。:将表自连接 3 次,通过日期差值筛选连续登录记录。:自连接开销大,性能差,需确保每天仅有一条登录记录。:依赖窗口函数,需确保数据无缺失(如日期格式统一)。,在 Hive 或 Spark SQL 中性能最佳。:逐行标记是否连续,通过累加计算连续天数。函数直接获取后续日期,判断是否连续。(用户 1 连续登录了 3 天)。:逻辑简单,无需窗口函数支持。:仅需扫描一次表,性能最优。
2025-07-10 10:58:16
399
原创 怎样通过EXPLAIN和抽样分析快速定位数据倾斜点
在 Hive 中,通过EXPLAIN查看执行计划和抽样分析 Key 分布是优化查询性能的关键步骤。
2025-07-09 09:45:08
839
原创 hive有哪些数据倾斜场景,并举例
小表 Join 大表:用 MapJoin 避免 Shuffle;大表 Join/Group By:拆分倾斜 Key、加随机前缀分散负载;特殊场景(空值、类型不匹配):针对性处理(替换空值、统一类型)。实际优化中需结合具体数据分布(通过explain查看执行计划,或抽样分析 Key 分布)选择合适的方法。
2025-07-09 09:42:29
475
原创 100道sql练习题
先独立编写 SQL 语句,再对比提供的答案解析,重点关注多表连接逻辑、窗口函数应用和业务场景转化(如风险指标计算)。数据库用的mysql,附答案、建表语句和数据。
2025-06-05 12:09:36
833
原创 HDFS页面端不能建文件夹,不能上传删除文件,权限不足
报错:Permission denied: user=sds, access=WRITE, inode="/":atguigu:supergroup:drwxr-xr-x。1、修改配置文件core-site.xml 中的用户登录配置信息,修改为使用atguigu(自己本地有权限的用户)登录。2、重启hadoop组件(修改配置文件都需要重启组件)修改完成后重启后就可以正常删除和新建上传文件。atguigu是本地登录的用户且有权限。本地没有sds这个用户。
2025-04-24 10:21:53
153
原创 安装centos7后内网能连接外网不能链接
现象: ping www.baidu.com 报connect: Network is unreachable。网关填写问题:重新检查配置文件,注意拼写,如果拼写正常可能是数字识别问题,使用粘贴方式输入。重启网络: systemctl restart network。外网链接正常 ping www.baidu.com。检查 ip route 未显示默认网关地址。ip route 已正常显示默认网关。
2025-04-23 11:40:07
129
原创 机器学习,pallow图像处理库,0基础友好
img_flr = img_g.transpose(Image.Transpose.FLIP_LEFT_RIGHT) #镜像,对图像做作业翻转。img_region = img_b.crop((0,0,250,250)) #图片.corp((左上点坐标,右下点坐标))img_size=img_r.resize((100,100)) #缩减,不改变原图的基础上像素变成100*100。img_r,img_g,img_b = img.split() #彩色图片分离RGB三个颜色通道。
2023-12-03 02:36:39
397
2
机器学习波士顿数据集,boston-housing.npz 直接放到C:\Users\当前自己的用户名\.keras\
2023-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人