group by后面加两个参数的sql

江柿

于 2023-03-09 10:00:00 发布

阅读量1.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： sql 数据库 spark

2 篇文章

订阅专栏

文章介绍了如何使用SparkSQL进行多字段分组统计，例如按月份和商品ID来计算每个商品每月的出现次数，从而找出热门商品。这种方法通过两次分组细化数据，然后应用count等聚合函数，帮助分析最近的热门趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

提示：这里可以添加本文要记录的大概内容：

我用spark统计最近热门商品时遇到group by后面加两个参数的sql，平时我们都是用一个参数，所以就探究了一下

提示：以下是本篇文章正文内容，下面案例可供参考

代码如下（示例）：

spark.sql.(
"select goodsId, count(asin) as count, monthTime 
from goods 
group by monthTime, goodsId
order by monthTime desc, count desc")

我们可以看到加了两个参数：
他的意思就是先按每个月分组，再按商品id分组，类似于将蛋糕切两刀就分组的更加细，再对id统计就是最近时间的最多的商品
在这里插入图片描述

https://segmentfault.com/a/1190000006821331

分组有先后，group by通常伴随着聚合函数使用（sum，count，avg等）