自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 数据分析 —— 数据预处理

数据预处理是数据分析和机器学习中的关键步骤,旨在将原始数据转换为高质量、适合分析或建模的形式。其主要步骤包括数据清洗、数据集成、数据变换和数据归约。数据清洗涉及处理缺失值、噪声数据和不一致数据;数据集成解决多数据源的冗余和冲突;数据变换包括标准化、归一化、离散化和特征编码;数据归约通过特征选择和降维减少数据规模。预处理的目的是提高数据质量、优化模型性能、减少计算成本并适配算法需求。此外,数据检测、缺失值处理、重复值处理、异常值处理、数据合并和数据重塑也是预处理的重要环节。通过这些步骤,数据科学家可以确保数据

2025-05-17 11:14:33 1354 2

原创 数据可视化 —— 饼图

展示不同品牌/产品在市场中的占有率。:分析公司各业务线或产品的收入占比。:按地区、行业或客户类型划分的用户比例。:显示企业或项目的资金分配(如研发、营销、人力等)。:展示时间、人力或物料在不同任务中的分配比例。:按年龄、性别、教育程度等划分的群体比例。:用户群体特征(如新用户/老用户、活跃度分布)。:问卷反馈的满意度(如“满意/中立/不满意”的占比)。:不同品类商品的库存占比。:分析问题原因的比例(如客户投诉类型分布)。:任务完成状态的占比(如已完成/进行中/未开始)。

2025-04-27 10:24:27 1237

原创 数据可视化 —— 直方图

直方图(Histogram)是一种用表示数据分布的统计图表,它将数据划分为连续的区间(称为“分箱”或“区间”),统计每个区间内的数据频数(或频率),并用柱形的高度直观展示数据分布情况。观察数据集中趋势(如集中在哪个区间)、离散程度(如是否对称、是否存在长尾)或异常值。例:分析某班级学生考试成绩的分布,判断是否接近正态分布。分析图像像素的亮度或颜色分布,辅助调整对比度、曝光或均衡化。例:Photoshop 中的直方图可帮助摄影师优化照片的明暗细节。监测生产过程中产品的规格(如零件尺寸)是否符合标准。

2025-04-27 10:21:47 1143

原创 机器学习 —— K近邻

k 近邻算法是一种简单且经典的监督学习算法,既可用于分类问题,也可用于回归问题。其核心思想是:对于一个待预测的样本,找到训练数据中与它 “距离最近” 的 k 个邻居,根据这 k 个邻居的类别(分类任务)或数值(回归任务)来决定该样本的预测结果。

2025-04-16 21:58:26 1130

原创 数据可视化 —— 条形图应用(大全)

对比不同类别、组别或时间点的数值差异。不同产品的销售额对比;各城市人口数量排名;部门间的年度预算分配。展示分类数据的频数或比例。不同年龄段用户的占比;客户满意度调查中各评分等级(满意、一般、不满意)的分布。

2025-04-16 13:08:46 974

原创 数据可视化 —— 多边图应用(大全)

该文章聚焦于利用 Python 进行数据可视化。借助 matplotlib 和 numpy 库,以 fast 风格创建了一个标题为 “多边形图” 的图形窗口,并设置字体为楷体、解决负号显示问题。通过 numpy 生成从 0 到 29 的整数数组作为 x 轴数据,同时生成两个包含 30 个 1 到 20 随机整数的数组分别作为 y1 和 y2 轴数据。最后使用 matplotlib 的 fill_between 函数,在 y1 与固定值 10 之间填充了黄色半透明区域,直观呈现数据关系

2025-04-11 18:43:44 1171

原创 数据可视化 —— 堆形图应用(大全)

本文章围绕 Python 编程环境下运用 matplotlib 和 pandas 库开展数据可视化工作展开。首先借助 pandas 的 read_excel 函数读取包含不同产品各季度销售额数据的 Excel 文件。接着,利用 matplotlib 构建图形窗口,对字体、负号显示等进行设置。随后,绘制了产品 A、B、C 各季度销售额的堆积柱状图,设置了图形标题、坐标轴标签与范围。同时,在各柱状图中间位置添加具体销售额数值的文本标签,最后添加带阴影和圆角边框的图例以清晰区分不同产品。

2025-04-11 18:29:06 521

原创 数据可视化 —— 柱形图应用(大全)

本文围绕使用 Python 进行数据可视化展开,借助matplotlib和pandas库,以 ' 全校高二年级各班男女生英语成绩评估.xlsx' 文件中的数据为基础,绘制了直观的多柱形图。代码首先设置了图形窗口的参数与字体,确保中文正常显示。接着读取 Excel 文件,提取班级名称、男生和女生平均成绩等关键数据。然后,精心调整柱形图的宽度、坐标轴范围及刻度标签,让图表布局合理。同时,在柱形图中间添加了精确到一位小数的平均成绩数据标签,增强可读性..........

2025-04-10 23:15:10 736 1

原创 数据可视化 —— 折线图应用(大全)

plt.xticks([原数据标签], [替换后的数据标签], rotation=300):用于x轴数据标签的显示,rotation是倾斜度。plt.grid(which(网格类型)="major", axis(方向)='both', lw(线的宽度)=1):添加网格线。plt.title('标题名', loc='left'):图上的名字显示,loc代表显示的位置在哪里。plt.ylabel('气温(度)'):y轴的显示标签。plt.xlabel('日期'):x轴的显示标签。

2025-04-10 18:20:47 670

原创 Jupyter Notebook 的常用快捷键

Jupyter Notebook 的常用快捷键分类总结,结合了命令模式与编辑模式的操作

2025-03-17 16:54:45 1039

原创 Python —— random.choice()的用法

常见应用场景

2025-03-16 17:52:53 1162

原创 Python —— time 模块中的 ctime()

time 模块中的 ctime()

2025-03-16 17:43:41 133

原创 Python —— replace()函数的用法

【代码】Python —— replace()函数的用法。

2025-03-16 15:57:30 930

原创 Python —— items()方法

Python 字典的items()方法是一个非常重要的内置方法,用于获取字典中所有键值对的动态视图。

2025-03-16 13:44:51 657

原创 Python —— get()函数

在 Python 中,get()是字典(dict)类型的内置方法,用于安全地获取字典中指定键对应的值。它的核心作用是KeyError。

2025-03-14 11:23:25 974

原创 Python —— jieba库

jieba是一个高效的中文分词库,支持精确模式、全模式、搜索引擎模式等多种分词方式,适用于文本分析、自然语言处理等场景。

2025-03-09 10:46:14 690 4

原创 Python —— pow()函数

【代码】Python —— pow()函数

2025-03-08 21:13:54 549

原创 Python —— turtle库

【代码】Python —— turtle库

2025-03-08 20:39:27 1193

原创 Python —— 随机数

【代码】Python —— 随机数

2025-02-16 15:25:33 201

原创 Python —— format函数的使用

将这些数字按照输入顺序输出,每个数字占10个字符宽度,右对齐,所有数字显示在同一行。分隔占位符和格式化选项,可以对插入的值进行各种格式化设置,如宽度、对齐方式、精度等。可以在占位符中指定索引,这样可以控制值替换占位符的顺序,索引从 0 开始。可以使用宽度指定输出的最小字符数,还可以指定对齐方式(左对齐。还可以使用字典作为参数,通过在占位符中使用键名来引用字典中的值。方法支持在占位符中使用格式化选项,通过在大括号内使用冒号。方法将这个字符串按照逗号进行分割,生成一个列表。

2025-02-16 14:21:57 513

原创 java —— 面向对象(下)

java的继承、接口使用、多态、异常、包详细教程。

2025-01-27 16:33:04 940

原创 java —— 面向对象(上)

在 Java 中,封装是面向对象编程的三大基本特性之一(另外两个是继承和多态),封装是一种将对象的内部状态和实现细节隐藏起来,通过公共方法提供对这些状态的访问和修改的编程机制。它有助于提高代码的安全性、可维护性和模块化,是面向对象编程中非常重要的一个概念。

2025-01-24 12:02:30 739

原创 java —— 数组(超详细教程)

介绍:这期讲的是java的原生数组,也就是list(静态空间),空间是写死的;后期的ArrayList是动态数组。我们需要先认识基础的格式,方便后面的ArrayList学习。

2025-01-20 15:58:09 3804 1

原创 java —— 方法、方法重载、方法递归

类定义:主方法::程序的入口点,程序从这里开始执行。:::自定义方法::::类定义和主方法:方法:

2025-01-20 10:36:21 1006

原创 有一个4*5的矩阵如下,要求编写程序计算总和与平均值,并找出其中值最大的那个元素输出,以及其所在的行号和列号。

【代码】有一个4*5的矩阵如下,要求编写程序计算总和与平均值,并找出其中值最大的那个元素输出,以及其所在的行号和列号。

2024-12-28 22:32:51 525

原创 Linux —— 搭建Apache服务器

在 Linux 中,权限通常用数字表示,每个数字对应一组权限(读、写、执行),分别针对文件所有者、所属组和其他用户。是 “change mode”(改变模式)的缩写,它是一个用于改变文件或目录权限的 Linux 命令。因为Apachen的默认文件是index.html,而我们的个人Wed文件是yinzhen.html。后面是个人的用户名!根据自己的ip和设置的域名添加。

2024-12-21 19:15:20 1940

原创 Linux —— 管理进程

他们在工作的时候,舞台上的表演(你的终端操作)不受影响,你还可以继续在舞台上做其他事情。例如,你让电脑在后台下载一个很大的文件。命令,用户可以获取有关进程的各种详细信息,如进程 ID(PID)、父进程 ID(PPID)、CPU 使用率、内存使用率、运行状态、启动时间等。当你在舞台上表演(执行任务)时,台下的观众(你自己)都只能看着你表演,不能做别的事情,这就是前台任务。比如你在终端打开一个文本编辑器来编辑文件,在你关闭这个文本编辑器之前,你不能在这个终端做其他操作了,这个文本编辑器的操作就是前台任务。

2024-12-19 16:21:11 1310

原创 Linux —— 管理软件包

定义Yum 源(Yellowdog Updater Modified repository)是在基于 Red Hat 系列操作系统(如 CentOS、RHEL)中用于软件安装、更新和管理的软件仓库源。它包含了大量的软件包以及这些软件包的相关信息,如软件名称、版本、依赖关系、文件列表等。组成部分软件包文件这是 yum 源的核心内容,包含了各种可以安装到系统中的软件包。

2024-12-17 14:07:04 1472

原创 [传智杯 #6 省赛] 小红劈字符串

【代码】[传智杯 #6 省赛] 小红劈字符串。

2024-12-15 21:11:10 766

原创 Linux —— vim 编辑器

vim是一个。:vim最初由Bram Moolenaar在1991年开发,作为vi编辑器的增强版,增加了许多新的特性和改进。它继承了vi的基本编辑功能和键盘快捷键,同时引入了多级撤销、语法高亮、自动缩进等现代编辑器特性。:vim拥有多种操作模式,包括普通模式(Normal mode)、插入模式(Insert mode)和可视模式(Visual mode)等。用户可以根据需要在不同模式间切换,以实现高效的文本编辑。例如,在普通模式下,用户可以浏览文件、执行命令;在插入模式下,用户可以输入文本;

2024-12-11 15:03:29 1088

原创 [传智杯 #7 初赛] 开心还是难过

【代码】[传智杯 #7 初赛] 开心还是难过。

2024-12-10 16:15:32 571

原创 [传智杯 #7 初赛] 汤姆和杰瑞

这行代码从标准输入读取一行数据,并将其拆分成两个部分。假设输入为 "5 10",那么。将列表中的每个字符串转换为整数,最终得到。根据上面的示例,输出将是。的结果,并将结果赋值给变量。: 这行代码打印变量。

2024-12-10 15:15:31 361

原创 [传智杯 #7 初赛] 吃糖果

【代码】[传智杯 #7 初赛] 吃糖果。

2024-12-10 15:10:39 398

原创 Linux —— 管理文件

常用:-l,-a-l:以长格式显示文件信息,包括权限、所有者、大小和修改时间等。例如,使用 可以查看文件的详细信息,如文件类型、权限、链接数、所有者、组、大小和最后修改时间。-a:显示所有文件,包括隐藏文件(以点开头的文件名)。通常,隐藏文件在普通 命令中不会显示,而使用 选项可以将其列出。-h:以人类可读的格式显示文件大小,例如使用KB、MB等单位。这使得文件大小的显示更加直观。-r:以相反的顺序列出文件和目录。默认情况下, 按名称升序排列,使用 可以反转这个顺序。-t:按照修改时间排序,最新修改

2024-12-10 00:07:30 1410

原创 Linux——管理用户和用户组

用户组定义:用户组是一组用户的集合,它允许对多个用户应用相同的权限设置。作用:通过将用户添加到组中,管理员可以轻松地为组内的所有用户设置相同的文件和目录权限。这简化了权限分配和管理的过程。类型:用户组可以分为基本组和附加组。基本组是在创建用户时自动创建的同名组,而附加组则是用户可以加入的其他组。管理:可以使用groupadd命令创建新组,使用groupmod命令修改现有组的属性,如更改GID(组标识符)。使用groupdel命令可以删除组。

2024-12-09 15:56:31 1350 1

原创 Python——Pandas库,超详细教程

前言1、Python的Pandas是一个基于Python构建的开源数据分析库,它提供了强大的数据结构和运算功能。2、Series:一维数组,类似于Numpy中的一维array,但具有索引标签,可以保存不同类型的数据,如字符串、布尔值、数字等。DataFrame:二维表格型数据结构,与SQL表或Excel工作表类似,每列可以是不同的数据类型(如数值、字符串或日期),并且具有列名和行索引。DataFrame是Pandas的核心数据结构,提供了丰富的数据操作方法。接下来我们将逐步介绍他的用法

2024-12-03 22:46:36 23965 3

原创 [传智杯 #5 初赛] A-莲子的软件工程学

[传智杯 #5 初赛] A-莲子的软件工程学

2024-11-29 10:45:24 355

原创 [传智杯 #3 初赛] 期末考试成绩

[传智杯 #3 初赛] 期末考试成绩

2024-11-29 00:18:54 595

原创 [传智杯 #4 初赛] 竞争得分

[传智杯 #4 初赛] 竞争得分

2024-11-28 23:17:46 433

原创 [传智杯 #4 初赛] 组原成绩

【代码】[传智杯 #4 初赛] 组原成绩。

2024-11-28 22:26:04 401

数据分析 - 数据预处理,使用的数据

数据分析 - 数据预处理,使用的数据

2025-05-13

数据分析 - 数据预处理,使用的数据

数据分析 - 数据预处理,使用的数据

2025-05-13

Linux - 管理软件包 jdk操作资料文件

Linux - 管理软件包 jdk操作资料文件

2024-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除