Python数据分析
文章平均质量分 83
Python数据分析
python慕遥
Python创作与分享
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
5个Python数据可视化技巧,绘制更漂亮的数据图
大家好,在数据驱动决策的时代,数据可视化是挖掘数据价值的重要一环。本文将介绍五种极为实用的高级可视化图表,从原理到代码实现,一站式助力绘制数据图。原创 2025-04-11 08:00:00 · 1193 阅读 · 0 评论 -
Python pandas离散化方法优化与应用实例
用户可以通过指定bins# 自定义区间print("自定义区间离散化后的DataFrame:\n", df)通过这种方式,可以灵活定义区间边界。原创 2024-12-10 23:37:01 · 1219 阅读 · 0 评论 -
Python数据清洗之重复数据处理
可以通过设置keep参数为last# 保留最后一条记录print("保留最后一条重复记录后的数据:\n", df_last)# 保留每个UserID的最新注册记录print("清洗后的用户注册数据:\n", user_df_cleaned)原创 2024-12-09 22:40:05 · 1421 阅读 · 0 评论 -
用Python pandas实现函数链数据处理
Pandas中的pipe方法允许用户将一个函数应用到数据对象上,并返回处理后的结果。pipe方法的最大优势是使多个数据处理步骤以链式方式书写,而不需要嵌套或创建中间变量。使用pipe的典型场景包括:按步骤构建数据处理流程。提高代码可读性,减少嵌套。在处理过程中传递额外参数。以下是pipe# 示例函数return df# 示例数据# 使用pipe方法A B0 1 101 2 102 3 10通过pipe方法,数据对象df被传递到自定义函数add_column。原创 2024-12-09 01:49:15 · 576 阅读 · 0 评论 -
Python实现8个概率分布公式及可视化
大家好,概率和统计知识是数据科学和机器学习的核心,我们需要统计和概率知识来有效地收集、审查、分析数据。现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。了解数据的分布有助于更好地模拟周围的世界,它可以帮助我们确定各种结果的可能性,或估计事件的可变性,这使得概率分布在数据科学和机器学习中非常有价值。原创 2024-12-03 15:34:30 · 1065 阅读 · 0 评论 -
Python中的melt和pivot轻松实现DataFrame格式转换
大家好,在数据处理与分析中,经常遇到数据需要进行格式转换的情况,例如将数据从宽表格式转换为长表格式,或将数据重新分组汇总。Pandas提供了丰富的reshape操作,尤其是melt和pivot这两个函数,使得DataFrame可以在宽表与长表之间高效转换。通过合理使用melt和pivot,可以在数据清洗、特征工程等环节中极大地提升工作效率。原创 2024-12-02 21:15:47 · 990 阅读 · 0 评论 -
机器学习中的数据预处理:从原始数据到模型输入
使用`pandas`的`get_dummies`函数:。在机器学习的工作流程中,数据预处理是一个不可或缺的环节。在进行数据预处理之前,需要了解数据的结构,使用`data.info()`可以快速查看数据的列名、数据类型和缺失值数量。标签编码将每个类别映射到一个唯一的整数,可以使用sklearn中的LabelEncoder:。目标编码是根据目标变量的均值对类别特征进行编码,通常用于具有大量类别的特征。如果缺失值的比例较小,可以考虑删除包含缺失值的行:。原创 2024-12-01 22:06:02 · 1194 阅读 · 0 评论 -
机器学习树模型中超参数优化方法
大家好,在机器学习的树模型(如决策树、随机森林、梯度提升树等)应用中,模型性能很大程度上取决于参数的合理设置。合适的参数能让模型更好拟合数据、提升预测准确性并避免过拟合等问题,本文将对超参数优化方法进行介绍。原创 2024-11-30 23:03:19 · 1535 阅读 · 0 评论 -
Python时间序列优化之道滑动与累积窗口的应用技巧
在Pandas中,滑动窗口和累积窗口是处理数据流时常用的两种窗口模型,它们在时间序列分析、事件处理、流处理等领域中非常重要。滑动窗口是一种动态窗口模型,它在时间轴上滑动以覆盖连续的数据段。窗口的大小是固定的,但随着时间的推移,窗口会沿着数据流向前移动。这种窗口模型允许数据的连续处理,窗口内的数据可以是重叠的。累积窗口是一种非重叠的窗口模型,每个窗口包含不重叠的数据段。当窗口内的数据被处理完毕后,窗口会向前移动到下一个数据段,开始处理新的数据。2.rollingrolling# 自定义滑动计算函数。原创 2024-11-29 23:58:18 · 1616 阅读 · 0 评论 -
Python数据分析:分组转换transform方法
transform不仅支持常规的聚合函数,还支持自定义函数。假设计算每位员工的薪资与部门平均薪资的差异,可以使用自定义函数实现。# 自定义函数计算薪资与部门平均薪资的差异df['薪资差异'] = df.groupby('部门')['薪资'].transform(lambda x: x - x.mean())print("薪资差异:\n", df)姓名 部门 薪资 部门平均薪资 薪资差异0 Alice 销售 7000 6900.0 100.01 Bob 销售 6800 6900.0 -100.0。原创 2024-11-16 22:08:45 · 1518 阅读 · 0 评论 -
Pandas数据透视表:交叉分析与聚合计算
数据透视表是一种汇总数据的表格形式,允许基于多个维度对数据进行分组、聚合。它可以将大数据集中的行列信息重组并汇总,以揭示更有价值的分析结果。在Pandas中,数据透视表使用函数实现,支持对数据进行灵活的统计和聚合。数据透视表的结构:行索引(index):作为数据透视表的行标签。列索引(columns):作为数据透视表的列标签。值(values):用于填充透视表的汇总数据。聚合函数(aggfunc):用于汇总数据的计算方式,例如求和、计数、平均值等。原创 2024-11-15 23:31:05 · 1260 阅读 · 0 评论 -
Python数据分析实战:日常工作必备可视化图表
大家好,数据分析是利用数学、统计学与实践相结合的科学统计分析方法,对excel数据、数据库中的数据、收集大量数据、网页抓取的数据进行分析,从中提取有价值的信息并形成结论进行展示的过程。本文将介绍数据分析常用可视化方法,并通过示例展示如何使用Python进行数据探索。原创 2024-11-14 16:50:44 · 1267 阅读 · 0 评论 -
Python数据分析中的Pandas去重操作详解
默认情况下,函数会保留第一次出现的重复记录,如果希望保留最后一次出现的记录,可以使用参数。# 保留最后一次出现的重复记录姓名 年龄 性别1 李四 21 女3 王五 22 男4 张三 20 男在这个示例中,使用了参数,保留了最后一条出现的“张三”记录。原创 2024-11-10 23:51:25 · 3180 阅读 · 0 评论 -
Python Pandas分组操作:transform与apply的使用
在使用Pandas进行数据分析时,分组操作通常与groupby函数结合使用。groupby可以将数据集按照某一列或多列进行分组,并对每个分组应用某种操作,例如计算平均值、求和等。transform和apply是两种在分组后进行数据转换的常用方法,它们可以灵活地对分组数据进行进一步处理。transform:对每个分组执行某种操作,并将结果“广播”回原始数据结构。这意味着结果的形状与原始数据相同。transform适用于需要在分组级别上执行计算并将结果与原始数据对齐的情况。apply。原创 2024-09-23 21:39:59 · 606 阅读 · 0 评论 -
Python数据分析实现滚动统计
窗口函数(Window Functions)是指在数据的某个子集(窗口)内应用的函数。这些函数在移动窗口中计算统计量,并返回结果。Pandas中的窗口函数主要包括rolling()ewm()等,它们分别用于滑动窗口计算、累积计算和指数加权计算。窗口函数在许多场景中非常有用,尤其是在以下情况下:平滑数据:通过移动平均等方法,可以消除数据中的短期波动,揭示长期趋势。捕捉局部特征:滚动窗口可以帮助捕捉数据在不同时间段内的局部特征。原创 2024-09-16 22:48:06 · 1673 阅读 · 0 评论 -
Python时间序列分析新技能,轻松掌握时间索引
时间索引(Time Index)是指数据集中使用时间作为索引标签的方式。使用时间索引,数据可以按照时间顺序进行排序、筛选、计算以及可视化等操作。这对于时间序列数据的分析非常有用,比如股票价格、温度变化、销售数据等。使用时间索引的优势:按时间快速检索数据:可以按年、月、日等时间单位快速检索或筛选数据。进行时间序列的统计与分析:例如按时间单位进行聚合、重采样等操作。处理不规则时间序列数据:时间索引可以帮助我们处理具有不规则时间间隔的数据。原创 2024-09-13 21:52:01 · 1401 阅读 · 0 评论 -
掌握Python Pandas中的多重索引技巧
多重索引是一种层次化的索引方式,它允许在DataFrame或Series中使用多个级别的索引。通过多重索引,我们可以更清晰地表达数据的层级关系,使得处理复杂数据集变得更加直观和高效。可以通过多列数据创建多重索引,从而将DataFrame组织成具有层次结构的形式。# 创建一个包含多个级别的DataFramedata = {'城市': ['北京', '北京', '上海', '上海', '广州', '广州'],'年份': [2020, 2021, 2020, 2021, 2020, 2021],原创 2024-09-11 10:54:25 · 1208 阅读 · 0 评论 -
Python Numpy布尔数组在数据分析中的应用
布尔数组是由布尔值(即True和False)组成的数组,它通常是通过对其他数组进行条件比较或逻辑运算生成的。在Numpy中,布尔数组可以用于数据的过滤、选择特定条件下的元素,或在进行元素替换时充当条件掩码。首先,来看一个简单的示例,通过条件比较生成一个布尔数组。# 创建一个数组# 生成一个布尔数组,条件为大于2print("原始数组:", arr)print("布尔数组:", bool_arr)原始数组: [1 2 3 4 5]布尔数组: [False False True True True]原创 2024-09-11 10:43:50 · 1433 阅读 · 0 评论 -
Python Pandas数据处理利器query方法解析
大家好,在数据分析中,数据过滤是常见且重要的操作。Pandas库提供了多种方法来筛选数据,其中query方法因其简洁和强大的表达能力受到广泛欢迎。本文将详细介绍Pandasquery方法的高级应用,助力大家在复杂数据过滤时更加得心应手。原创 2024-09-10 17:51:27 · 1022 阅读 · 0 评论 -
数据分析新星,DuckDB与Pandas处理大数据速度对比
总的来说,DuckDB能够使用大家熟悉的SQL语言来快速编写并执行数据聚合查询,速度提升了几个数量级。DuckDB还支持多种文件格式,包括JSON、CSV和Excel,并且能够与多家数据库厂商的产品兼容。如果你打算在更专业的环境下使用DuckDB,你将有很多灵活的选择。原创 2024-09-06 20:41:54 · 2158 阅读 · 0 评论 -
一种综合评价及决策方法:层次分析法AHP
大家好,层次分析法(Analytic Hierarchy Process,AHP)是一种多准则决策方法,它帮助决策者处理复杂的决策问题,将其分解成层次结构,然后通过两两比较来确定各个层次的因素之间的相对重要性。这种分析方式允许决策者对问题进行系统化的、结构化的处理,从而更清晰地理解各因素之间的相互关系和作用。AHP的核心思想是通过对各个因素的两两比较,得出一个比较矩阵,然后利用特定的数学方法(如特征值分解)计算出每个因素的权重,最终将这些权重综合起来,确定备选方案的总排序。原创 2024-05-23 16:06:56 · 1486 阅读 · 0 评论 -
快速入门Pandas和NumPy数据分析
大家好,从商业智能到科学研究,数据分析在许多领域中都是一项重要技能。Python因其可读性强和强大的库生态系统而成为最受欢迎的数据分析语言之一,Pandas和NumPy是重要的基础工具,适用于任何想要分析和解释数据的人。本文将探讨如何使用这些库,内容涵盖了从Pandas中的基本数据操作到NumPy中的统计分析。原创 2024-04-30 17:09:26 · 1731 阅读 · 0 评论 -
5个用于地理空间数据分析的Python包
地理空间数据涵盖了各种类型,例如卫星图像、高程模型、点云、土地利用分类和基于文本的信息,为跨行业的空间分析和决策提供了有价值的洞察,微软、谷歌、Esri和亚马逊网络服务等大型公司都利用地理空间数据来获得有价值的洞察。接下来一起了解一下地理空间数据分析的五大Python包,这些包能够进行数据读取/写入、操作、可视化、地理编码和地理索引,适用于初学者和有经验的用户,为地理空间数据的有效探索、可视化和洞察提供支持。地理空间数据是具有地理成分的数据,表示地球表面上对象、特征或事件的位置和特性。原创 2023-11-14 16:39:11 · 1327 阅读 · 0 评论 -
使用Python分析时序数据集中的缺失数据
因此,在为建模方法准备数据时,一个重要的步骤是能够识别这些未知信息的模式,因为它们将帮助我们决定处理数据的最佳方法,以提高数据的一致性和效率,可以通过某种形式的对齐校正、数据插值、数据填补,或者在某些情况下,进行逐案删除(即,在特定分析中对具有缺失值的特征省略案例)。在序列数据的背景下,缺失信息可能由多种原因引起,包括采集系统的错误(例如传感器故障)、传输过程中的错误(例如网络连接的故障)或者数据收集过程中的错误(例如数据记录过程中的人为错误)。原创 2023-11-12 23:45:52 · 583 阅读 · 0 评论 -
超越NumPy和Pandas的Python库
大家好,Python是世界上使用最广泛的编程语言之一,并为开发人员提供了大量的库。然而,当涉及到数据处理和科学计算时,用户通常会想到诸如NumpyPandas或SciPy等库。本文将介绍3个你可能感兴趣的Python库。Dask是一个灵活的并行计算库,可实现大规模数据处理的分布式计算和并行计算。Python已经发展成为数据分析和通用编程中的主流语言。这种增长得益于像NumPy、Pandas和scikit-learn等计算库。然而,这些包并不适用于超越单台机器的规模。原创 2023-09-22 23:37:54 · 755 阅读 · 0 评论 -
使用PyGWalker可视化分析表格型数据
它能获取用户的数据,并将其转化为一种特殊的表格,可以与之交互,就像使用Tableau一样。可以直观地探索数据,玩转数据,查看模式和洞察力,而不会迷失在复杂的代码中。该界面提供了各种拖放功能,可用于分析和探索数据,它提供了一种与数据交互的便捷互动方式,让你能够执行可视化数据、探索关系等任务。你还可以通过创建拼接视图来比较不同的测量值,通过将多个测量值添加到行或列,可以轻松地对它们进行并排分析和比较。有了PyGWalker,你现在就拥有了一个类似于Tableau的用户界面,可以对数据进行分析和可视化。原创 2023-07-28 20:31:02 · 2257 阅读 · 0 评论 -
简单易用的DuckDB数据库管理系统
现在有许多原因使公司开始在DuckDB上搭建产品,该数据库专为快速分析查询而设计,因此它针对大型数据集上的聚合、连接和复杂查询进行了优化,这些类型的查询通常在分析和报告中使用。简而言之,DuckDB将SQLite的简单易用性与专业列存储数据库的分析性能相结合,性能、简单性、功能和开源许可这些因素促使DuckDB在开发人员和数据分析师中越来越受欢迎。总之,DuckDB为需要快速和简单的数据分析能力的应用程序提供了易于使用的嵌入式分析数据库,它填补了分析处理领域的一个空白,而完整的数据库服务器则过于复杂。原创 2023-07-24 22:02:16 · 2949 阅读 · 0 评论 -
数据分析的iloc和loc功能
DataFrame是一个带有标记行(索引)和列的二维表格数据结构,索引可以是数字的、基于字符串的,甚至可以是数字和字符串的组合,Pandas允许使用各种索引技术访问和操作DataFrame元素。大家好,在处理大型数据集时,使用有效的数据操作和提取技术是必要的。函数提供了数据操作和索引的强大工具,有效的数据分析和操作需要了解这些函数之间的差异及其各自的用例。它遵循基于0的索引系统,其中第一个元素的索引为0,第二个为1,以此类推。使用Python中的。使用基于整数的索引,允许我们使用整数位置选择数据,而。原创 2023-07-19 21:47:11 · 2871 阅读 · 1 评论 -
使用Pandas简化数据探索性分析
通过了解行的数量,可以估计我们正在处理的数据量,而列的数量则揭示了可用于分析的变量或特征。通过将每列中空值的总和除以表格中的记录总数,并将其乘以100,可以计算出空值的百分比,这样就能了解每列中缺失数据的情况。经过分析,我们发现空值最多的列,即订单表约有3%的空值,现在对多个表格执行相同的分析操作。识别和处理空值是数据分析中的一项关键任务,因为缺失的数据可能会影响结果的准确性和可靠性。将表格保存到字典中:将导入的表格存储在字典中。对于每个数据集,可以看到有的列的空值比例为0,而有的列具有较多的空值。原创 2023-07-18 10:00:00 · 328 阅读 · 0 评论 -
基于Python情感分析制定交易策略
实施基于情感的交易策略的第一步是收集相关数据,有几个来源提供与情感相关的信息,包括金融新闻网站、社交媒体平台和情感数据提供商。在执行情感分析之前,对文本数据进行预处理以确保结果准确是至关重要的,文本预处理包括删除不必要的信息,如停顿词、标点符号和网址,并将文本转换为小写。为了评估基于情感的交易策略的表现,回测是必不可少的。利用历史数据模拟该策略在不同市场条件下的表现,并测量关键的性能指标。一旦获取了收集数据的情感分数,就可以基于预定的阈值或模式生成交易信号,以下是使用情感分析生成交易信号的几个示例。原创 2023-07-14 20:01:16 · 662 阅读 · 0 评论 -
Python探索金融数据进行时间序列分析和预测
为了演示如何使用Python进行时间序列分析和预测,将使用微软公司的每日调整收盘价,这些数据由Yahoo Finance提供。库提供了一种简单的方法来下载特定代码的金融数据,开始和结束日期表示我们要下载的数据时间段,本文为2010年1月至2022年6月。现在已经下载了数据,然后探索一下数据以更好地了解它的结构和特征,可以使用Pandas来分析数据。上面的代码绘制了微软公司调整后的收盘价的ACF和PACF,滞后期最长为20。首先,我们将创建一个新的DataFrame,仅捕获我们分析所需的列。原创 2023-07-13 16:01:57 · 3340 阅读 · 0 评论 -
Pandas和Polars之间语法和速度比较
相反,Polars是专为并行化而设计的,并从头开始搭建。大家好,Pandas是数据科学中必不可少的Python库,但其最大的缺点是对大型数据集的操作速度较慢。但是,根据Polars用户指南,“如果你的Polars代码看起来像是Pandas代码,它可能会运行,但很可能比它应该运行的速度慢。因此,如果你需要使用Pandas提供的所有功能,则可能需要继续使用Pandas,Polars的代码通常比Pandas的代码长。对于我们的样本数据集,使用Pandas聚合数据需要比使用Polars长两倍左右的时间。原创 2023-07-11 23:48:32 · 1145 阅读 · 0 评论 -
10种聚类算法的完整python操作示例
大家好,聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在 python 中安装和使用顶级聚类算法。看完本文后,你将知道:聚类是在输入数据的特征空间中查找自然组的无监督问题。对于所有数据集,有许多不同的聚类算法和单一的最佳方法。原创 2023-02-26 23:33:28 · 1071 阅读 · 0 评论 -
使用Python进行数据分析——方差分析
下半部分为多重比较,进行事后分析,group1以及group2表示的是因子的不同水平,然后分析他们两个组是否有显著性差异,最后面的reject表示是否拒绝原假设,True表示的是拒绝原假设,说明两组均值有显著性差异。根据影响试验条件的因素个数可以将方差分析分为:单因素方差分析、双因素方差分析、多因素方差分析;多因素方差分析则是分析更多因素指标的分析方法。本文介绍的方差分析(Analysis of Variance,简称ANOVA)就是用于检验两组或者两组以上样本的均值是否具备显著性差异的一种数理统计方法。原创 2023-02-25 20:30:00 · 15995 阅读 · 2 评论 -
使用Python进行数据分析——线性回归分析
为了判断线性回归分析模型是否可用于实际检测,需要检验线性回归分析模型的拟合程度,也就是对模型进行评估,主要以这三个值作为评估标准:(R-squared统计学中的)、Adj.R-squared(即Adiustd )、P值;如果拟合出来的回归分析模型的拟合度符合要求,就可以使用该模型以及计算出的系数a和b得到回归方程,从而根据已有的自变量数据来预测需要的因变量结果。例如在一元线性回归分析中,只需要确定自变量与因变量的相关度为强相关性,即可建立一元线性回归方程,从而确定线性回归分析的类型为一元线性回归。原创 2023-02-25 13:35:29 · 15869 阅读 · 3 评论 -
使用Python进行数据分析——描述性统计分析
大家好,描述性统计分析主要是指求一组数据的平均值、中位数、众数、极差、方差和标准差等指标,通过这些指标来发现这组数据的分布状态、数字特征等内在规律。在Python中进行描述性统计分析,可以借助Numpy、Pandas、SciPy等科学计算模块计算出指标,然后用绘图模块Matplotlib绘制出数据的分布状态和频率及频数直方图,以更直观的方式展示数据分析的结果。根据数据的分布是否对称,数据的分布状态可分为正态分布与偏态分布。偏度--是指数据分布的偏斜方向和程度的度量,常用于衡量随机分布的不均衡性。原创 2023-02-24 20:45:00 · 13007 阅读 · 0 评论 -
Python基础学习之数组的运算
大家好,本文基于Numpy模块讲解数组之间的的四则运算和数组元素之间的统计运算。使用函数可以对数组元素进行一些统计运算,诸如:求和、求平均值、求最大值最小值等。一、数组之间的四则运算。二、数组之间的统计运算。原创 2023-02-24 15:33:59 · 4258 阅读 · 0 评论 -
Python数据分析之数据高级处理——基于pandas模块的进阶
大家好,今天我们主要讲解pandas模块的进阶用法,包括数据的查找、替换、插入、删除、排序、筛选、运算,以及数据表的结构转换和拼接等。删除行 删除数据行与上面删除列的方法类似,只不过是需要将参数axis设置为0即可,其余代码参考以上删除行演示代码,在这里就不细细讲解。用insert()函数在数据表的指定位置进行插入。结果在此就不一一演示,大家可以自己运行一下试试看。以赋值的方法直接在数据表最右侧插入列数据。一、数据的查找和替换。原创 2023-02-23 21:03:19 · 562 阅读 · 0 评论 -
python数据分析-相关分析
典型相关分析由霍特林提出,其基本思想和主成分分析非常相似:首先在每组变量中找出变量的线性组合,使两组的线性组合之间具有最大的相关系数;然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提取完毕为止。但在许多实际问题中,需要研究多个变量间的相关性。,Yq)中,虽然每个Xi与每个Yj之间的相关性也反映了两组变量中各对数据之间的联系,但不能反映这两组变量整体之间的相关性,而且使用这么多相关系数来整体描述两组变量之间的相关性显得过于烦琐。原创 2023-02-18 11:22:16 · 1746 阅读 · 0 评论 -
python数据分析-因子分析
实例:下表所示为各参赛队男子径赛运动记录的部分数据,8项径赛运动分别是100m(x1)、200m(x2)、400m(x3)、800m(x4)、1500m(x5)、5000m(x6)、10000m(x7)、马拉松(x8),x1~x3的单位为秒,x4~x8的单位为分。主成分法和主因子法的因子载荷经过因子旋转之后给出了大致相同的结果在因子上的载荷依次增大,在因子f1*上的载荷依次减小,于是可以称f2*为耐力因子。根据代码的结果可知,每个队伍两个因子的得分数值分别按因子得分f1、f2数值大小由高到低排序。原创 2023-02-17 19:25:42 · 1939 阅读 · 0 评论
分享