- 博客(69)
- 收藏
- 关注
原创 数据分析 —— 数据预处理
数据预处理是数据分析和机器学习中的关键步骤,旨在将原始数据转换为高质量、适合分析或建模的形式。其主要步骤包括数据清洗、数据集成、数据变换和数据归约。数据清洗涉及处理缺失值、噪声数据和不一致数据;数据集成解决多数据源的冗余和冲突;数据变换包括标准化、归一化、离散化和特征编码;数据归约通过特征选择和降维减少数据规模。预处理的目的是提高数据质量、优化模型性能、减少计算成本并适配算法需求。此外,数据检测、缺失值处理、重复值处理、异常值处理、数据合并和数据重塑也是预处理的重要环节。通过这些步骤,数据科学家可以确保数据
2025-05-17 11:14:33
1354
2
原创 数据可视化 —— 饼图
展示不同品牌/产品在市场中的占有率。:分析公司各业务线或产品的收入占比。:按地区、行业或客户类型划分的用户比例。:显示企业或项目的资金分配(如研发、营销、人力等)。:展示时间、人力或物料在不同任务中的分配比例。:按年龄、性别、教育程度等划分的群体比例。:用户群体特征(如新用户/老用户、活跃度分布)。:问卷反馈的满意度(如“满意/中立/不满意”的占比)。:不同品类商品的库存占比。:分析问题原因的比例(如客户投诉类型分布)。:任务完成状态的占比(如已完成/进行中/未开始)。
2025-04-27 10:24:27
1237
原创 数据可视化 —— 直方图
直方图(Histogram)是一种用表示数据分布的统计图表,它将数据划分为连续的区间(称为“分箱”或“区间”),统计每个区间内的数据频数(或频率),并用柱形的高度直观展示数据分布情况。观察数据集中趋势(如集中在哪个区间)、离散程度(如是否对称、是否存在长尾)或异常值。例:分析某班级学生考试成绩的分布,判断是否接近正态分布。分析图像像素的亮度或颜色分布,辅助调整对比度、曝光或均衡化。例:Photoshop 中的直方图可帮助摄影师优化照片的明暗细节。监测生产过程中产品的规格(如零件尺寸)是否符合标准。
2025-04-27 10:21:47
1143
原创 机器学习 —— K近邻
k 近邻算法是一种简单且经典的监督学习算法,既可用于分类问题,也可用于回归问题。其核心思想是:对于一个待预测的样本,找到训练数据中与它 “距离最近” 的 k 个邻居,根据这 k 个邻居的类别(分类任务)或数值(回归任务)来决定该样本的预测结果。
2025-04-16 21:58:26
1130
原创 数据可视化 —— 条形图应用(大全)
对比不同类别、组别或时间点的数值差异。不同产品的销售额对比;各城市人口数量排名;部门间的年度预算分配。展示分类数据的频数或比例。不同年龄段用户的占比;客户满意度调查中各评分等级(满意、一般、不满意)的分布。
2025-04-16 13:08:46
974
原创 数据可视化 —— 多边图应用(大全)
该文章聚焦于利用 Python 进行数据可视化。借助 matplotlib 和 numpy 库,以 fast 风格创建了一个标题为 “多边形图” 的图形窗口,并设置字体为楷体、解决负号显示问题。通过 numpy 生成从 0 到 29 的整数数组作为 x 轴数据,同时生成两个包含 30 个 1 到 20 随机整数的数组分别作为 y1 和 y2 轴数据。最后使用 matplotlib 的 fill_between 函数,在 y1 与固定值 10 之间填充了黄色半透明区域,直观呈现数据关系
2025-04-11 18:43:44
1171
原创 数据可视化 —— 堆形图应用(大全)
本文章围绕 Python 编程环境下运用 matplotlib 和 pandas 库开展数据可视化工作展开。首先借助 pandas 的 read_excel 函数读取包含不同产品各季度销售额数据的 Excel 文件。接着,利用 matplotlib 构建图形窗口,对字体、负号显示等进行设置。随后,绘制了产品 A、B、C 各季度销售额的堆积柱状图,设置了图形标题、坐标轴标签与范围。同时,在各柱状图中间位置添加具体销售额数值的文本标签,最后添加带阴影和圆角边框的图例以清晰区分不同产品。
2025-04-11 18:29:06
521
原创 数据可视化 —— 柱形图应用(大全)
本文围绕使用 Python 进行数据可视化展开,借助matplotlib和pandas库,以 ' 全校高二年级各班男女生英语成绩评估.xlsx' 文件中的数据为基础,绘制了直观的多柱形图。代码首先设置了图形窗口的参数与字体,确保中文正常显示。接着读取 Excel 文件,提取班级名称、男生和女生平均成绩等关键数据。然后,精心调整柱形图的宽度、坐标轴范围及刻度标签,让图表布局合理。同时,在柱形图中间添加了精确到一位小数的平均成绩数据标签,增强可读性..........
2025-04-10 23:15:10
736
1
原创 数据可视化 —— 折线图应用(大全)
plt.xticks([原数据标签], [替换后的数据标签], rotation=300):用于x轴数据标签的显示,rotation是倾斜度。plt.grid(which(网格类型)="major", axis(方向)='both', lw(线的宽度)=1):添加网格线。plt.title('标题名', loc='left'):图上的名字显示,loc代表显示的位置在哪里。plt.ylabel('气温(度)'):y轴的显示标签。plt.xlabel('日期'):x轴的显示标签。
2025-04-10 18:20:47
670
原创 Python —— get()函数
在 Python 中,get()是字典(dict)类型的内置方法,用于安全地获取字典中指定键对应的值。它的核心作用是KeyError。
2025-03-14 11:23:25
974
原创 Python —— jieba库
jieba是一个高效的中文分词库,支持精确模式、全模式、搜索引擎模式等多种分词方式,适用于文本分析、自然语言处理等场景。
2025-03-09 10:46:14
690
4
原创 Python —— format函数的使用
将这些数字按照输入顺序输出,每个数字占10个字符宽度,右对齐,所有数字显示在同一行。分隔占位符和格式化选项,可以对插入的值进行各种格式化设置,如宽度、对齐方式、精度等。可以在占位符中指定索引,这样可以控制值替换占位符的顺序,索引从 0 开始。可以使用宽度指定输出的最小字符数,还可以指定对齐方式(左对齐。还可以使用字典作为参数,通过在占位符中使用键名来引用字典中的值。方法支持在占位符中使用格式化选项,通过在大括号内使用冒号。方法将这个字符串按照逗号进行分割,生成一个列表。
2025-02-16 14:21:57
513
原创 java —— 面向对象(上)
在 Java 中,封装是面向对象编程的三大基本特性之一(另外两个是继承和多态),封装是一种将对象的内部状态和实现细节隐藏起来,通过公共方法提供对这些状态的访问和修改的编程机制。它有助于提高代码的安全性、可维护性和模块化,是面向对象编程中非常重要的一个概念。
2025-01-24 12:02:30
739
原创 java —— 数组(超详细教程)
介绍:这期讲的是java的原生数组,也就是list(静态空间),空间是写死的;后期的ArrayList是动态数组。我们需要先认识基础的格式,方便后面的ArrayList学习。
2025-01-20 15:58:09
3804
1
原创 有一个4*5的矩阵如下,要求编写程序计算总和与平均值,并找出其中值最大的那个元素输出,以及其所在的行号和列号。
【代码】有一个4*5的矩阵如下,要求编写程序计算总和与平均值,并找出其中值最大的那个元素输出,以及其所在的行号和列号。
2024-12-28 22:32:51
525
原创 Linux —— 搭建Apache服务器
在 Linux 中,权限通常用数字表示,每个数字对应一组权限(读、写、执行),分别针对文件所有者、所属组和其他用户。是 “change mode”(改变模式)的缩写,它是一个用于改变文件或目录权限的 Linux 命令。因为Apachen的默认文件是index.html,而我们的个人Wed文件是yinzhen.html。后面是个人的用户名!根据自己的ip和设置的域名添加。
2024-12-21 19:15:20
1940
原创 Linux —— 管理进程
他们在工作的时候,舞台上的表演(你的终端操作)不受影响,你还可以继续在舞台上做其他事情。例如,你让电脑在后台下载一个很大的文件。命令,用户可以获取有关进程的各种详细信息,如进程 ID(PID)、父进程 ID(PPID)、CPU 使用率、内存使用率、运行状态、启动时间等。当你在舞台上表演(执行任务)时,台下的观众(你自己)都只能看着你表演,不能做别的事情,这就是前台任务。比如你在终端打开一个文本编辑器来编辑文件,在你关闭这个文本编辑器之前,你不能在这个终端做其他操作了,这个文本编辑器的操作就是前台任务。
2024-12-19 16:21:11
1310
原创 Linux —— 管理软件包
定义Yum 源(Yellowdog Updater Modified repository)是在基于 Red Hat 系列操作系统(如 CentOS、RHEL)中用于软件安装、更新和管理的软件仓库源。它包含了大量的软件包以及这些软件包的相关信息,如软件名称、版本、依赖关系、文件列表等。组成部分软件包文件这是 yum 源的核心内容,包含了各种可以安装到系统中的软件包。
2024-12-17 14:07:04
1472
原创 Linux —— vim 编辑器
vim是一个。:vim最初由Bram Moolenaar在1991年开发,作为vi编辑器的增强版,增加了许多新的特性和改进。它继承了vi的基本编辑功能和键盘快捷键,同时引入了多级撤销、语法高亮、自动缩进等现代编辑器特性。:vim拥有多种操作模式,包括普通模式(Normal mode)、插入模式(Insert mode)和可视模式(Visual mode)等。用户可以根据需要在不同模式间切换,以实现高效的文本编辑。例如,在普通模式下,用户可以浏览文件、执行命令;在插入模式下,用户可以输入文本;
2024-12-11 15:03:29
1088
原创 [传智杯 #7 初赛] 汤姆和杰瑞
这行代码从标准输入读取一行数据,并将其拆分成两个部分。假设输入为 "5 10",那么。将列表中的每个字符串转换为整数,最终得到。根据上面的示例,输出将是。的结果,并将结果赋值给变量。: 这行代码打印变量。
2024-12-10 15:15:31
361
原创 Linux —— 管理文件
常用:-l,-a-l:以长格式显示文件信息,包括权限、所有者、大小和修改时间等。例如,使用 可以查看文件的详细信息,如文件类型、权限、链接数、所有者、组、大小和最后修改时间。-a:显示所有文件,包括隐藏文件(以点开头的文件名)。通常,隐藏文件在普通 命令中不会显示,而使用 选项可以将其列出。-h:以人类可读的格式显示文件大小,例如使用KB、MB等单位。这使得文件大小的显示更加直观。-r:以相反的顺序列出文件和目录。默认情况下, 按名称升序排列,使用 可以反转这个顺序。-t:按照修改时间排序,最新修改
2024-12-10 00:07:30
1410
原创 Linux——管理用户和用户组
用户组定义:用户组是一组用户的集合,它允许对多个用户应用相同的权限设置。作用:通过将用户添加到组中,管理员可以轻松地为组内的所有用户设置相同的文件和目录权限。这简化了权限分配和管理的过程。类型:用户组可以分为基本组和附加组。基本组是在创建用户时自动创建的同名组,而附加组则是用户可以加入的其他组。管理:可以使用groupadd命令创建新组,使用groupmod命令修改现有组的属性,如更改GID(组标识符)。使用groupdel命令可以删除组。
2024-12-09 15:56:31
1350
1
原创 Python——Pandas库,超详细教程
前言1、Python的Pandas是一个基于Python构建的开源数据分析库,它提供了强大的数据结构和运算功能。2、Series:一维数组,类似于Numpy中的一维array,但具有索引标签,可以保存不同类型的数据,如字符串、布尔值、数字等。DataFrame:二维表格型数据结构,与SQL表或Excel工作表类似,每列可以是不同的数据类型(如数值、字符串或日期),并且具有列名和行索引。DataFrame是Pandas的核心数据结构,提供了丰富的数据操作方法。接下来我们将逐步介绍他的用法
2024-12-03 22:46:36
23965
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人