Python列表数据按区间分组统计各组个数

最新推荐文章于 2024-08-03 18:43:55 发布

原创最新推荐文章于 2024-08-03 18:43:55 发布 · 8.8k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#python

Python 专栏收录该内容

522 篇文章

订阅专栏

本文介绍了如何使用Python的itertools.groupby函数对列表数据进行分组，并统计每个区间的数量。通过示例展示了如何对分数列表按照一定步长进行分组，输出每个分数段及其出现的次数，例如1.0-3.0区间有2个数，5.0-7.0区间有1个数等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求描述

今天遇到一个问题，就是有一个列表数据，划分一个固定区间，统计每个区间数量。

解决方案

使用 groupby() 函数

from itertools import groupby

score_list = [6.3, 1.2, 6.2, 5.6, 9.5, 1.6]
step = 1
for k, g in groupby(sorted(score_list), key=lambda x: x//step):
    print('{}-{}: {}'.format(k*step, (k+1)*step+1, len(list(g))))

分组效果

1.0-3.0: 2
5.0-7.0: 1
6.0-8.0: 2
9.0-11.0: 1

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

detayun

关注关注

5
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Python数据可视化：数据分布图表可视化（基础篇—4）

不脱发的程序猿

01-10

9420

数据分布型图表主要显示数据集中的数值及其出现的频率或者分布规律，包括统计直方图、核密度曲线图、箱形图、小提琴图等。

Python数据分析与可视化的基础知识（带例子）

2301_79640217的博客

12-20

1万+

这包括处理缺失值、重复值和异常值。常用的方法包括填充缺失值、删除重复值和通过统计方法或可视化方法识别和处理异常值。有时需要将数据从一种格式转换为另一种格式，或者将数据类型转换为适合分析的类型。例如，将字符串类型转换为数字类型，或者将日期转换为特定的时间格式。这涉及到计算均值、中位数、总和等统计指标，以及按照某个列或多个列进行分组并进行相应的计算。数据可视化是一种有效的方式，可以通过图表、图形和图像等形式将数据直观地呈现出来。常用的数据分析和可视化库有：pandas、numpy和matplotlib。

参与评论您还未登录，请先登录后发表或查看评论

python 数据分组后看每组多少个_用Python开始的数据分析——分组groupby（1）

weixin_39522312的博客

11-29

1481

Dear all，嘿 ~ 好久不见，感觉快要有半年没有更新了，看着偶尔冒出来的关注，还是有点不好意思的（……内心狂喜……）。对，我又、又转行了！所以不能继续写 Django 了，但是和Python 就此结下的孽缘还没有结束。新的内容，新的坑，以后就请多多指教咯！本篇内容：基于numpy、pandas 库，对 groupby 在数据分析中的基础应用场景，进行演示。基础知识：对 numpy、p...

Python list 按区间分组统计各组个数

devil_son1234的博客

07-07

5732

一、需求假设有个 list: example_list =[95.0, 95.0, 97.0, 97.0, 97.0, 98.0, 99.0, 99.0, 101.0, 101.0, 101.0, 101.0, 101.0, 102.0, 102.0, 103.0, 103.0, 103.0, 104.0, 104.0, 104.0, 104.0, 104.0, 104.0, 104.0, 104.0, 105.0, 105.0, 105.0, 105.0, 106.0, 107.0, 107.0,.

chatgpt赋能python：Python数据按区间切分

turensu的博客

06-21

879

区间切分是将一段连续的数据分割成若干个等距的区间的过程。例如，将0到100之间的整数切分为10个区间，每个区间的大小为10，那么第一个区间包含的数据为0到9，第二个区间包含的数据为10到19，以此类推。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于。

python 对一组list数据，进行区间划分，按照大小排序并返回索引值

【更新于公众号 | 简谱学记】

04-25

7360

python 对一组list数据，进行区间划分，按照大小排序并返回索引值：一、对一组纬度数据进行排序：二、将lat数据按照10为区间进行排序并统计每个区间存在的个数：最近在对海洋数据进行处理时，对数据需要进行一些排序，数据匹配等操作；现对我所希望实现的一些函数进行总结：一、对一组纬度数据进行排序：现有4000多个纬度数据，从第0个至最后一个从-90°~90°随机分布。想要实现从-90°依次从到小排至90°，既升序排列，同时返回其下标这里引用两个函数sorted 、enumerate 第一个函数

python实现报表的分组统计_Python 分组处理

weixin_39622289的博客

12-12

1383

在日常数据分析时，经常会遇到需要按列分组 (groupby) 的任务，如计算某公司各部门的人数，计算各部门男女平均工资，计算不同年代的员工的平均工资等等。在进行这类运算时，Pandas 提供了 groupby 函数，大多数问题它都可以解决，但有一些问题使用 groupby 函数会略显麻烦，下面我们就这些问题展开细致的讨论。groupby 是 pandas 中非常重要的一个函数, 主要用于数据分类和...

30 个 Python 技巧，加速你的数据分析处理速度

xff123456_的博客

10-27

2528

一天不学心痒痒，一星期不学....就是真不学了

Python大数据分析（三）：大数据统计分析技术

数据库爆破专家的博客

06-21

3845

文章目录（一）概率论数理统计中的概念（1）随机分布（2）统计分布（二）统计分析的常见指标（1）均值，方差，标准差，中位数，众数（2）总量指标（3）相对指标（4）平均指标（5）变异指标（三）统计分析的特点（四）数据统计分析pandas工具使用13分钟入门pandas（一）：对象创建13分钟入门pandas（二）：查看数据13分钟入门pandas（四）：对象创建13分钟入门pandas（五）：对象创建3分钟入门pandas（六）：对象创建13分钟入门pandas（七）：对象创建13分钟入门pandas（八）：对

python list分组求数量并排序

weixin_41934979的博客

08-03

378

【代码】python list分组求数量并排序。

Python 列表数据分布区间统计数量

03-23

1万+

Python 列表数据分布区间统计数量例如：把年龄间隔20岁作为区间，统计每个区间的人数 import pandas as pd ages=[24,22,26,30,25,23,47,31,51,45,43,13] bins=[0,20,40,50,60,70,80,90,100] #将年龄划分为18-25，26-35，36-60,60以上 cats=pd.cut(ages,bins) print(pd.value_counts(cats)) #按区间计数 print(pd.cut(

python 数据分组后看每组多少个_用.groupby()作分组运算，取每组的前几名（数值大小）...

weixin_36471865的博客

03-01

2228

在日常做数据处理中，我们可能或涉及到取不同分组中的前几名。比如，某零售企业经营的业务中，包含“蔬菜”、“水果”、“水产”这3个板块的商品，此时，我们需要计算出每个不同的层级索引中销量(销售数量)前几的记录。注：本文中所引用的数据纯属虚构(虚拟数据)，可自行下载练习使用，不作商业用途。否则后果自负。谢谢！链接：https://pan.baidu.com/s/1QbiUOQNYO3pyhVgCnkri...

chatgpt赋能python：Python区间分布统计：使用Python对数据进行区间分布分析

sc17332889342的博客

06-04

897

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

python区间分布统计_常见概率统计分布及Python实现

weixin_39761647的博客

12-05

1885

一、离散随机变量及连续随机变量随机变量1. 离散随机变量(Discrete random variable)：取值是可数个值(且只能为自然数0、1、2...)的随机变量2. 连续随机变量(Continuous random variable)：取值是一个区间中任一实数(即变量的取值可以是连续的)的随机变量相应概率计算公式PMF/PDF/CDF1. 离散随机变量：概率质量函数(Probability...

mysql 按照时间间隔1小时（或者其他分钟数、小时数）分组来进行数据统计

shui12quan的博客

08-04

1165

SELECT FLOOR(TIMESTAMPDIFF(SECOND,create_time,NOW())/3600) timeDiff, sum(listen_time) listenTime FROM user_learn_time WHERE create_time >= DATE_SUB(NOW(),INTERVAL 2 DAY) GROUP BY timeDiff;

对DataFrame中的数据进行按区间切分进行分组

最新发布

03-08

<think>嗯，用户需要一段Python代码，用pandas DataFrame批量画直方图，还要多线程，分组处理，筛选数据范围，显示统计指标。首先得理清需求。首先，用户希望选择一个分组字段和一个待画图的字段，每个分组生成对应的直方图。多线程可能用来加速处理，但得考虑Python的GIL问题，可能用concurrent.futures的ThreadPoolExecutor。不过绘图部分可能受限于matplotlib的backend，多线程是否有效？可能需要测试，但按用户要求尽量实现。然后是数据筛选，只统计每个分组中值大小排序后5%-95%区间的数据。应该用分位数剪裁，比如用quantile()方法，然后过滤掉范围外的数据。注意每个分组单独处理，不能全局剪裁，否则可能影响各组分布。统计指标方面，每个直方图需要显示均值、中位数、标准差。可以用ax.text在图上添加文本，位置要调整好，别遮挡重要部分。代码结构方面，可能先定义绘图函数，处理单个分组的数据，进行剪裁，画图，添加统计信息。然后用多线程调用这个函数，遍历所有分组。参数设计：函数需要dataframe，group_col（分组字段），plot_col（画图字段），输出路径，bins数量，是否显示等。主函数里读取数据，获取唯一分组值，分配线程任务。需要注意matplotlib多线程的问题，可能每个线程生成独立的figure和ax，避免冲突。此外，保存图像时文件名要唯一，可以用分组名，但需要处理特殊字符。测试的时候，要确保剪裁正确，每个分组单独处理。统计指标计算是否正确，是否在图上显示。多线程是否真的提升速度，尤其是分组很多的时候。可能的错误点：分组名中有非法字符导致保存失败，分位数计算错误，多线程竞争资源导致图像错乱，或者程序崩溃。需要异常处理，比如try-except块，或者同步机制，但可能复杂。另外，用户可能希望直方图的bins一致，方便比较，所以可能需要统一bins范围，或者每个分组自动调整。这里按用户需求，可能每个分组独立设置bins。最后，整理代码结构，添加必要的注释，方便用户理解和使用。可能需要示例数据测试，比如用pd.DataFrame生成虚拟数据，分组测试。</think>我为您设计了一个分步实现的Python代码方案。以下是实现思路和完整代码： 1. **核心功能分解** - 使用`ThreadPoolExecutor`实现多线程绘图 - 动态数据过滤：每组数据保留5%-95%分位数范围 - 自动标注关键统计指标 - 分组保存图片文件 ```python import pandas as pd import numpy as np import matplotlib.pyplot as plt from concurrent.futures import ThreadPoolExecutor import os def plot_histogram(group_data, group_name, plot_col, output_dir='histograms', bins=30): """ 单个分组的直方图绘制函数 """ try: # 计算分位数边界 lower = group_data[plot_col].quantile(0.05) upper = group_data[plot_col].quantile(0.95) # 过滤数据 filtered_data = group_data[(group_data[plot_col] >= lower) & (group_data[plot_col] <= upper)] if filtered_data.empty: print(f"分组 {group_name} 无有效数据") return # 创建画布 fig, ax = plt.subplots(figsize=(10, 6)) # 绘制直方图 ax.hist(filtered_data[plot_col], bins=bins, edgecolor='black', alpha=0.7) # 计算统计指标 mean = filtered_data[plot_col].mean() median = filtered_data[plot_col].median() std = filtered_data[plot_col].std() # 添加标注 textstr = '\n'.join(( f'均值: {mean:.2f}', f'中位数: {median:.2f}', f'标准差: {std:.2f}')) ax.text(0.75, 0.95, textstr, transform=ax.transAxes, verticalalignment='top', bbox=dict(boxstyle='round', alpha=0.5)) # 设置标题 ax.set_title(f'{plot_col} 分布 - 分组: {group_name}\n(显示5%-95%分位数数据)') ax.set_xlabel(plot_col) ax.set_ylabel('频数') # 保存图片 os.makedirs(output_dir, exist_ok=True) safe_name = str(group_name).replace("/", "_").replace("\\", "_") # 处理特殊字符 plt.savefig(f'{output_dir}/{plot_col}_{safe_name}.png') plt.close() except Exception as e: print(f"分组 {group_name} 绘图失败: {str(e)}") def batch_histogram(df, group_col, plot_col, max_workers=4): """ 批量直方图生成主函数 """ groups = df[group_col].unique() with ThreadPoolExecutor(max_workers=max_workers) as executor: futures = [] for group in groups: group_data = df[df[group_col] == group] futures.append( executor.submit( plot_histogram, group_data=group_data, group_name=group, plot_col=plot_col ) ) # 等待所有任务完成 for future in futures: future.result() # 使用示例 if __name__ == "__main__": # 生成测试数据 data = { 'group': np.random.choice(['A', 'B', 'C'], 1000), 'value': np.concatenate([ np.random.normal(50, 10, 700), np.random.normal(150, 50, 300) ]) } df = pd.DataFrame(data) # 执行批处理 batch_histogram(df=df, group_col='group', plot_col='value', max_workers=3) ``` **代码特点说明：** 1. **数据预处理** - 自动计算每个分组的5%和95%分位数 - 过滤极端值前会检查空数据集 - 使用`str(group_name).replace()`处理特殊字符，避免文件保存失败 2. **可视化优化** - 自动调整图形尺寸(`figsize=(10,6)`) - 添加半透明边框(`edgecolor='black', alpha=0.7`) - 统计信息使用半透明圆角文本框展示 3. **多线程实现** - 使用`ThreadPoolExecutor`控制最大线程数 - 每个分组独立线程处理 - 自动等待所有任务完成 4. **异常处理** - 使用try-except捕获单个分组的绘图错误 - 空数据集时跳过处理 **使用建议：** 1. 调整`max_workers`参数根据CPU核心数设置 2. 输出目录默认在当前路径下的`histograms`文件夹 3. 可通过修改`plot_histogram`函数的`bins`参数调整直方图分箱数 4. 统计指标保留两位小数，可根据需要修改格式字符串 **效果示例：** 生成的直方图会包含： - 过滤后的数据分布 - 醒目的统计指标标注 - 自动命名的分组标题 - 统一规范的坐标轴标签该实现方案在保持代码简洁性的同时，兼顾了执行效率和异常处理，适合处理中等规模的数据集（10万行级别数据）。对于超大数据集建议增加内存检查机制。